【发布时间】:2011-05-11 05:42:27
【问题描述】:
我正在使用 PHP 的 DOMElement 控件解析第三方网页。当我在浏览器中使用网页并查看源代码时,它很干净,但是当我通过 DOMElement->nodeValue 参数访问某些节点时,HTML 标记不存在,并且有几个换行符和这个字符 Â。根据this answer,这是出现编码问题时出现的字符。
我还使用以下方法获得了那个 gobbly-gook:
- simplexml_import_dom($node)->asXML();
- $doc->saveXML($node);
我的问题是如何在 DOMElement 中简单地获取干净的 HTML 代码?
这是干净的 HTML 代码:
<b>Author:</b> AUTHOR<br>
<b>ISBN:</b> 9780684857220 <br>
<b>Edition/Copyright:</b> 7<br>
<b>Publisher:</b> J+M<br>
<b>Published Date:</b> 1989<br>
这是 nodeValue 给出的:
Â
Author:Â AUTHOR ISBN:Â 9780684857220 Edition/Copyright:Â 7 Publisher:Â J+M Published Date:Â
1989
【问题讨论】: