GVKun编程网logo

在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML

16

在本文中,您将会了解到关于在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML的新资讯,并给出一些关于asp中使用MSXML2.DOMDocument处理XML数据时的注意事项、

在本文中,您将会了解到关于在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML的新资讯,并给出一些关于asp中使用MSXML2.DOMDocument处理XML数据时的注意事项、delphi – 通过TXMLDocument访问IXMLDOMDocument2?、document.write PHP XML操作类DOMDocument、PHP DomDocument XML加载XML数据损坏的实用技巧。

本文目录一览:

在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML

在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML

我需要将XML文档从外部源加载到PHP中。XML未声明其编码,并且包含非法字符,如&。如果尝试直接在浏览器中加载XML文档,则在用PHP加载文件时也会收到诸如“在文本内容中发现无效字符”之类的错误消息,并且还会收到很多警告,例如:xmlParseEntityRef:no name in EntityInput is not proper UTF-8, indicate encoding ! Bytes: 0x9C0x31 0x21 0x3C

显然,XML格式不正确,并且包含应转换为XML实体的非法字符。

这是因为XML提要由许多其他用户提供的数据组成,并且很明显,在我获得它之前,尚未对其进行验证或重新格式化。

我已经与XML feed的供应商进行了交谈,他们说他们正试图让内容提供商对其进行分类,但这似乎很愚蠢,因为他们应该首先验证输入。

我基本上需要修复XML,以纠正任何编码错误并将任何非法字符转换为XML实体,以便在使用PHP的DOMDocument函数时XML加载问题。

我的代码当前如下所示:

  $feedURL = ''3704017_14022010_050004.xml'';  $dom = new DOMDocument();  $dom->load($feedURL);

显示编码问题的XML文件示例(单击下载):feed.xml

包含未转换为XML实体的字符的示例XML:

<?xml version="1.0"?><feed><RECORD><ID>117387</ID><ADVERTISERNAME>Test</ADVERTISERNAME><AID>10544740</AID><NAME>This & This</NAME><DESCRIPTION>For one day only this is > than this.</DESCRIPTION></RECORD></feed>

答案1

小编典典

尝试使用Tidy库,该库可用于清除不良的HTML和XML
http://php.net/manual/zh/book.tidy.php

一个纯PHP解决方案,用于修复如下所示的一些XML:

<?xml version="1.0"?><feed><RECORD><ID>117387</ID><ADVERTISERNAME>Test < texter</ADVERTISERNAME><AID>10544740</AID><NAME>This & This</NAME><DESCRIPTION>For one day only this is > than this.</DESCRIPTION></RECORD></feed>

将是这样的:

  function cleanupXML($xml) {    $xmlOut = '''';    $inTag = false;    $xmlLen = strlen($xml);    for($i=0; $i < $xmlLen; ++$i) {        $char = $xml[$i];        // $nextChar = $xml[$i+1];        switch ($char) {        case ''<'':          if (!$inTag) {              // Seek forward for the next tag boundry              for($j = $i+1; $j < $xmlLen; ++$j) {                 $nextChar = $xml[$j];                 switch($nextChar) {                 case ''<'':  // Means a < in text                   $char = htmlentities($char);                   break 2;                 case ''>'':  // Means we are in a tag                   $inTag = true;                   break 2;                 }              }          } else {             $char = htmlentities($char);          }          break;        case ''>'':          if (!$inTag) {  // No need to seek ahead here             $char = htmlentities($char);          } else {             $inTag = false;          }          break;        default:          if (!$inTag) {             $char = htmlentities($char);          }          break;        }        $xmlOut .= $char;    }    return $xmlOut;  }

这是一个简单的状态机,它指示我们是否在标记中,如果没有,则使用htmlentities编码文本。

值得注意的是,这将占用大文件的内存,因此您可能需要将其重写为流插件或预处理器。

asp中使用MSXML2.DOMDocument处理XML数据时的注意事项

asp中使用MSXML2.DOMDocument处理XML数据时的注意事项

这篇文章主要介绍了asp中使用MSXML2.DOMDocument处理XML数据时的注意事项,本文给出了4个需要注意的问题,需要的朋友可以参考下




 

asp使用MSXML2.DOMDocument加载网络上的xml文件时,在调用load方法前需要注意设置:

复制代码代码如下:

oXML.setProperty "ServerHTTPRequest", true


即启用ServerHTTPRequest请求,要不会出现系统错误: -2146697209。

 

asp使用MSXML2.DOMDocument组件时需要注意一下4中情况

 

复制代码代码如下:

<%
Dim oXML, oXMLError, ReturnValue, x
Set oXML = Server.CreateObject("MSXML2.DOMDocument")
 '' 设置DOMDocument加载xml文件时是异步加载,还是同步加载
oXML.async = false''==========A
'' 设置目的: True/False,表示是否使用“服务器安全”的ServerXMLHTTP组件加载xml文档
oXML.setProperty "ServerHTTPRequest", true''==========B
'' 通过HTTP加载网络xml文件件
ReturnValue = oXML.Load("http://localhost/asp/ServerXML.xml")''==========C
''或者加载服务器本地xml文件
''ReturnValue = oXML.Load("d:\test.xml")''==========D
 
'' 打出DOMDocument.load的返回值:
Response.write "Result of load method is =" & ReturnValue & "<br>"
 %>

 

第一种情况(加载空文档):

  默认情况下,DOMDocument对象的async属性是TRUE,即异步方式加载。 而且加载时不使用ServerXMLHTTP组件。 即注释掉上面代码中的第A行和B行代码。

复制代码代码如下:

''oXML.async = false''==========A
''oXML.setProperty "ServerHTTPRequest", true''==========B

 

这时候,加载会成功。 ReturnValue将会是TRUE。 但是加载到DOMDocument中的XML文档为空!也就是说,load方法返回的TRUE是一个幌子! 结果如下所示: 对于这种情况,程序员一定要小心! XML虽然没有报告任何错误,而且load方法也表明成功,但是DOM的xml属性却为空。
 

第二种情况(错误原因为: -2146697209):

  如果你显式地声明async属性为FALSE,即同步方式加载XML文档。 而且加载时不使用ServerXMLHTTP组件。 即只注释掉上面代码中的第B行代码。

复制代码代码如下:

oXML.async = false''==========A
''oXML.setProperty "ServerHTTPRequest", true''==========B

 

那么将会遭遇失败!ReturnValue将是False。 错误原因为: -2146697209 - 无所需资源的可用数据。 也就说,同步加载Internet上的XML资源是不会成功的!!

第三种情况(不允许):

  如果你的async属性为TRUE,即异步方式加载XML文档。 而且加载时使用ServerXMLHTTP组件。 即启用上面代码中的第B行代码。注释掉第A行代码。

 

复制代码代码如下:

''oXML.async = false''==========A
oXML.setProperty "ServerHTTPRequest", true''==========B

 

 报告了错误!说明使用SXH组件异步加载XML文档,是不被允许的! 错误描述为: -1072897486 - The ServerHTTPRequest property can not be used when loading a document asynchronously and is only supported on Windows NT 4.0 and above.

第四种情况(正确使用):

 

  如果你显式地声明async属性为FALSE,即同步方式加载XML文档。 而且加载时使用ServerXMLHTTP组件。 即启用上面代码中的第A和B行代码。

复制代码代码如下:

oXML.async = false''==========A
oXML.setProperty "ServerHTTPRequest", true''==========B

 

那就可以了!说明使用SXH组件加载XML文档,能够纠正了异步方式加载Internet资源的错误。

总结

加载方式

是否使用

ServerXMLHTTP组件

加载结果

异步加载 不使用 加载会成功。 但是加载到DOMDocument中的XML文档为空
同步加载 不使用 将会遭遇失败!错误原因为: -2146697209 - 无所需资源的可用数据。
异步加载 使用 不被允许的
同步加载 使用 真正成功

delphi – 通过TXMLDocument访问IXMLDOMDocument2?

delphi – 通过TXMLDocument访问IXMLDOMDocument2?

我有一些使用Delphi的T XMLDocument类的工作代码,并使用TransformNode方法执行XSLT转换.

但是,我需要启用XSLT Javascript函数(< msxml:script>标记)和 – 经过大量谷歌搜索 – 这意味着我需要将IXMLDOMDocument2的AllowXsltScript属性设置为true.

http://msdn.microsoft.com/en-us/library/windows/desktop/ms760290(v=vs.85).aspx

我已经成功实现了这一点 – 但只能通过在msxmldom.pas中修改Delphi库函数CreateDOMDocument的源代码.

function CreateDOMDocument: IXMLDOMDocument;
var doc :IXMLDOMDocument2;
begin

  doc := TryObjectCreate([CLASS_DOMDocument60,CLASS_DOMDocument40,CLASS_DOMDocument30,CLASS_DOMDocument26,msxml.CLASS_DOMDocument]) as IXMLDOMDocument2;
  if not Assigned(doc) then
    raise DOMException.Create(SMSDOMnotinstalled);
  doc.setProperty('AllowXsltScript',true);  // Allow XSLT scripts!!
  Result := doc;
end;

显然这远非令人满意 – 所以如何在不修改库代码的情况下访问IXMLDOMDocument2对象?

解决方法

您可以通过MSXMLDOMDocumentCreate变量覆盖create函数:

unit Unit27;

interface

uses
  xmldoc,xmlintf,msxml,msxmldom,Forms,SysUtils,ActiveX,ComObj,XmlDom,XmlConst,Windows,Messages,Classes,Controls,StdCtrls;

type
  TForm1 = class(TForm)
    procedure FormCreate(Sender: TObject);
  private
    { Private declarations }
  public
    { Public declarations }
  end;

var
  Form1: TForm1;

implementation

{$R *.dfm}

function TryObjectCreate(const GuidList: array of TGuid): IUnkNown;
var
  I: Integer;
  Status: HResult;
begin
  Status := S_OK;
  for I := Low(GuidList) to High(GuidList) do
  begin
    Status := CoCreateInstance(GuidList[I],nil,CLSCTX_INPROC_SERVER or
      CLSCTX_LOCAL_SERVER,Idispatch,Result);
    if Status = S_OK then Exit;
  end;
  OleCheck(Status);
end;

function CreateDOMDocument2: IXMLDOMDocument;

var
  Doc2 : IXMLDOMDocument2;

begin
  Doc2 := TryObjectCreate([CLASS_DOMDocument60,msxml.CLASS_DOMDocument]) as IXMLDOMDocument2;
  if not Assigned(Doc2) then
    raise DOMException.Create(SMSDOMnotinstalled);
  Doc2.setProperty('AllowXsltScript',true);
  Result := Doc2;
end;


procedure TForm1.FormCreate(Sender: TObject);

var
 Doc : IXMLDocument;

begin
 Doc := TXMLDocument.Create(nil);
 Doc.LoadFromFile('c:\temp\test.xml');
end;


initialization
 MSXMLDOMDocumentCreate := CreateDOMDocument2;
end.

document.write PHP XML操作类DOMDocument

document.write PHP XML操作类DOMDocument

PHP DomDocument XML加载XML数据损坏

PHP DomDocument XML加载XML数据损坏

你如何处理XML文件中的数据损坏?例如,如果我有

<text>Some &improper; text here.</text>

我正在尝试:

 $doc = new DOMDocument();
 $doc->validateOnParse = false;
 $doc->formatOutput = false;
 $doc->load(...xml');

它失败了,因为有一个未知的实体.注意,由于软件的编写方式,我无法使用CDATA.我正在编写一个读取和写入XML的模块,有时用户会插入不正确的文本.

我注意到DOMDocument-> loadHTML()很好地编码了所有内容,但我怎么能从那里继续?

解决方法:

也许您可以使用preg_replace_callback为您执行繁重的实体:

http://php.net/manual/en/function.preg-replace-callback.php

function fixEntities($data) {
    switch(substr($data, 1, strlen($data) - 2)) {
        case 'amp':
        case 'lt':
        case 'gt':
        case 'quot': // etc., etc., etc.
            return $data;
    }
    return '';
}
$xml = preg_replace_callback('/&([a-zA-Z0-9#]*);{1}/', 'fixEntities', $xml);

关于在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML的介绍现已完结,谢谢您的耐心阅读,如果想了解更多关于asp中使用MSXML2.DOMDocument处理XML数据时的注意事项、delphi – 通过TXMLDocument访问IXMLDOMDocument2?、document.write PHP XML操作类DOMDocument、PHP DomDocument XML加载XML数据损坏的相关知识,请在本站寻找。

本文标签: