在本文中,您将会了解到关于在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML的新资讯,并给出一些关于asp中使用MSXML2.DOMDocument处理XML数据时的注意事项、
在本文中,您将会了解到关于在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML的新资讯,并给出一些关于asp中使用MSXML2.DOMDocument处理XML数据时的注意事项、delphi – 通过TXMLDocument访问IXMLDOMDocument2?、document.write PHP XML操作类DOMDocument、PHP DomDocument XML加载XML数据损坏的实用技巧。
本文目录一览:- 在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML
- asp中使用MSXML2.DOMDocument处理XML数据时的注意事项
- delphi – 通过TXMLDocument访问IXMLDOMDocument2?
- document.write PHP XML操作类DOMDocument
- PHP DomDocument XML加载XML数据损坏
在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML
我需要将XML文档从外部源加载到PHP中。XML未声明其编码,并且包含非法字符,如&
。如果尝试直接在浏览器中加载XML文档,则在用PHP加载文件时也会收到诸如“在文本内容中发现无效字符”之类的错误消息,并且还会收到很多警告,例如:xmlParseEntityRef:no name in Entity
和Input is not proper UTF-8, indicate encoding ! Bytes: 0x9C0x31 0x21 0x3C
。
显然,XML格式不正确,并且包含应转换为XML实体的非法字符。
这是因为XML提要由许多其他用户提供的数据组成,并且很明显,在我获得它之前,尚未对其进行验证或重新格式化。
我已经与XML feed的供应商进行了交谈,他们说他们正试图让内容提供商对其进行分类,但这似乎很愚蠢,因为他们应该首先验证输入。
我基本上需要修复XML,以纠正任何编码错误并将任何非法字符转换为XML实体,以便在使用PHP的DOMDocument函数时XML加载问题。
我的代码当前如下所示:
$feedURL = ''3704017_14022010_050004.xml''; $dom = new DOMDocument(); $dom->load($feedURL);
显示编码问题的XML文件示例(单击下载):feed.xml
包含未转换为XML实体的字符的示例XML:
<?xml version="1.0"?><feed><RECORD><ID>117387</ID><ADVERTISERNAME>Test</ADVERTISERNAME><AID>10544740</AID><NAME>This & This</NAME><DESCRIPTION>For one day only this is > than this.</DESCRIPTION></RECORD></feed>
答案1
小编典典尝试使用Tidy库,该库可用于清除不良的HTML和XML
http://php.net/manual/zh/book.tidy.php
一个纯PHP解决方案,用于修复如下所示的一些XML:
<?xml version="1.0"?><feed><RECORD><ID>117387</ID><ADVERTISERNAME>Test < texter</ADVERTISERNAME><AID>10544740</AID><NAME>This & This</NAME><DESCRIPTION>For one day only this is > than this.</DESCRIPTION></RECORD></feed>
将是这样的:
function cleanupXML($xml) { $xmlOut = ''''; $inTag = false; $xmlLen = strlen($xml); for($i=0; $i < $xmlLen; ++$i) { $char = $xml[$i]; // $nextChar = $xml[$i+1]; switch ($char) { case ''<'': if (!$inTag) { // Seek forward for the next tag boundry for($j = $i+1; $j < $xmlLen; ++$j) { $nextChar = $xml[$j]; switch($nextChar) { case ''<'': // Means a < in text $char = htmlentities($char); break 2; case ''>'': // Means we are in a tag $inTag = true; break 2; } } } else { $char = htmlentities($char); } break; case ''>'': if (!$inTag) { // No need to seek ahead here $char = htmlentities($char); } else { $inTag = false; } break; default: if (!$inTag) { $char = htmlentities($char); } break; } $xmlOut .= $char; } return $xmlOut; }
这是一个简单的状态机,它指示我们是否在标记中,如果没有,则使用htmlentities编码文本。
值得注意的是,这将占用大文件的内存,因此您可能需要将其重写为流插件或预处理器。
asp中使用MSXML2.DOMDocument处理XML数据时的注意事项
这篇文章主要介绍了asp中使用MSXML2.DOMDocument处理XML数据时的注意事项,本文给出了4个需要注意的问题,需要的朋友可以参考下
asp使用MSXML2.DOMDocument加载网络上的xml文件时,在调用load方法前需要注意设置:
oXML.setProperty "ServerHTTPRequest", true
即启用ServerHTTPRequest请求,要不会出现系统错误: -2146697209。
asp使用MSXML2.DOMDocument组件时需要注意一下4中情况
<%
Dim oXML, oXMLError, ReturnValue, x
Set oXML = Server.CreateObject("MSXML2.DOMDocument")
'' 设置DOMDocument加载xml文件时是异步加载,还是同步加载
oXML.async = false''==========A
'' 设置目的: True/False,表示是否使用“服务器安全”的ServerXMLHTTP组件加载xml文档
oXML.setProperty "ServerHTTPRequest", true''==========B
'' 通过HTTP加载网络xml文件件
ReturnValue = oXML.Load("http://localhost/asp/ServerXML.xml")''==========C
''或者加载服务器本地xml文件
''ReturnValue = oXML.Load("d:\test.xml")''==========D
'' 打出DOMDocument.load的返回值:
Response.write "Result of load method is =" & ReturnValue & "<br>"
%>
第一种情况(加载空文档):
默认情况下,DOMDocument对象的async属性是TRUE,即异步方式加载。 而且加载时不使用ServerXMLHTTP组件。 即注释掉上面代码中的第A行和B行代码。
''oXML.async = false''==========A
''oXML.setProperty "ServerHTTPRequest", true''==========B
这时候,加载会成功。 ReturnValue将会是TRUE。 但是加载到DOMDocument中的XML文档为空!也就是说,load方法返回的TRUE是一个幌子! 结果如下所示: 对于这种情况,程序员一定要小心! XML虽然没有报告任何错误,而且load方法也表明成功,但是DOM的xml属性却为空。
第二种情况(错误原因为: -2146697209):
如果你显式地声明async属性为FALSE,即同步方式加载XML文档。 而且加载时不使用ServerXMLHTTP组件。 即只注释掉上面代码中的第B行代码。
oXML.async = false''==========A
''oXML.setProperty "ServerHTTPRequest", true''==========B
那么将会遭遇失败!ReturnValue将是False。 错误原因为: -2146697209 - 无所需资源的可用数据。 也就说,同步加载Internet上的XML资源是不会成功的!!
第三种情况(不允许):
如果你的async属性为TRUE,即异步方式加载XML文档。 而且加载时使用ServerXMLHTTP组件。 即启用上面代码中的第B行代码。注释掉第A行代码。
''oXML.async = false''==========A
oXML.setProperty "ServerHTTPRequest", true''==========B
报告了错误!说明使用SXH组件异步加载XML文档,是不被允许的! 错误描述为: -1072897486 - The ServerHTTPRequest property can not be used when loading a document asynchronously and is only supported on Windows NT 4.0 and above.
第四种情况(正确使用):
如果你显式地声明async属性为FALSE,即同步方式加载XML文档。 而且加载时使用ServerXMLHTTP组件。 即启用上面代码中的第A和B行代码。
oXML.async = false''==========A
oXML.setProperty "ServerHTTPRequest", true''==========B
那就可以了!说明使用SXH组件加载XML文档,能够纠正了异步方式加载Internet资源的错误。
总结
加载方式 |
是否使用 ServerXMLHTTP组件 |
加载结果 |
异步加载 | 不使用 | 加载会成功。 但是加载到DOMDocument中的XML文档为空 |
同步加载 | 不使用 | 将会遭遇失败!错误原因为: -2146697209 - 无所需资源的可用数据。 |
异步加载 | 使用 | 不被允许的 |
同步加载 | 使用 | 真正成功 |
delphi – 通过TXMLDocument访问IXMLDOMDocument2?
但是,我需要启用XSLT Javascript函数(< msxml:script>标记)和 – 经过大量谷歌搜索 – 这意味着我需要将IXMLDOMDocument2的AllowXsltScript属性设置为true.
http://msdn.microsoft.com/en-us/library/windows/desktop/ms760290(v=vs.85).aspx
我已经成功实现了这一点 – 但只能通过在msxmldom.pas中修改Delphi库函数CreateDOMDocument的源代码.
function CreateDOMDocument: IXMLDOMDocument; var doc :IXMLDOMDocument2; begin doc := TryObjectCreate([CLASS_DOMDocument60,CLASS_DOMDocument40,CLASS_DOMDocument30,CLASS_DOMDocument26,msxml.CLASS_DOMDocument]) as IXMLDOMDocument2; if not Assigned(doc) then raise DOMException.Create(SMSDOMnotinstalled); doc.setProperty('AllowXsltScript',true); // Allow XSLT scripts!! Result := doc; end;
显然这远非令人满意 – 所以如何在不修改库代码的情况下访问IXMLDOMDocument2对象?
解决方法
unit Unit27; interface uses xmldoc,xmlintf,msxml,msxmldom,Forms,SysUtils,ActiveX,ComObj,XmlDom,XmlConst,Windows,Messages,Classes,Controls,StdCtrls; type TForm1 = class(TForm) procedure FormCreate(Sender: TObject); private { Private declarations } public { Public declarations } end; var Form1: TForm1; implementation {$R *.dfm} function TryObjectCreate(const GuidList: array of TGuid): IUnkNown; var I: Integer; Status: HResult; begin Status := S_OK; for I := Low(GuidList) to High(GuidList) do begin Status := CoCreateInstance(GuidList[I],nil,CLSCTX_INPROC_SERVER or CLSCTX_LOCAL_SERVER,Idispatch,Result); if Status = S_OK then Exit; end; OleCheck(Status); end; function CreateDOMDocument2: IXMLDOMDocument; var Doc2 : IXMLDOMDocument2; begin Doc2 := TryObjectCreate([CLASS_DOMDocument60,msxml.CLASS_DOMDocument]) as IXMLDOMDocument2; if not Assigned(Doc2) then raise DOMException.Create(SMSDOMnotinstalled); Doc2.setProperty('AllowXsltScript',true); Result := Doc2; end; procedure TForm1.FormCreate(Sender: TObject); var Doc : IXMLDocument; begin Doc := TXMLDocument.Create(nil); Doc.LoadFromFile('c:\temp\test.xml'); end; initialization MSXMLDOMDocumentCreate := CreateDOMDocument2; end.
document.write PHP XML操作类DOMDocument
PHP DomDocument XML加载XML数据损坏
你如何处理XML文件中的数据损坏?例如,如果我有
<text>Some &improper; text here.</text>
我正在尝试:
$doc = new DOMDocument();
$doc->validateOnParse = false;
$doc->formatOutput = false;
$doc->load(...xml');
它失败了,因为有一个未知的实体.注意,由于软件的编写方式,我无法使用CDATA.我正在编写一个读取和写入XML的模块,有时用户会插入不正确的文本.
我注意到DOMDocument-> loadHTML()很好地编码了所有内容,但我怎么能从那里继续?
解决方法:
也许您可以使用preg_replace_callback为您执行繁重的实体:
http://php.net/manual/en/function.preg-replace-callback.php
function fixEntities($data) {
switch(substr($data, 1, strlen($data) - 2)) {
case 'amp':
case 'lt':
case 'gt':
case 'quot': // etc., etc., etc.
return $data;
}
return '';
}
$xml = preg_replace_callback('/&([a-zA-Z0-9#]*);{1}/', 'fixEntities', $xml);
关于在使用DOMDocument函数进行处理之前,修复PHP中格式错误的XML的介绍现已完结,谢谢您的耐心阅读,如果想了解更多关于asp中使用MSXML2.DOMDocument处理XML数据时的注意事项、delphi – 通过TXMLDocument访问IXMLDOMDocument2?、document.write PHP XML操作类DOMDocument、PHP DomDocument XML加载XML数据损坏的相关知识,请在本站寻找。
本文标签: