【问题标题】:PHP Simple HTML DOM Parser does not handle invalid HTML - got stuck within a first trialPHP Simple HTML DOM Parser 无法处理无效的 HTML - 在第一次试用中陷入困境
【发布时间】:2011-05-20 13:00:55
【问题描述】:

我正在尝试使用 PHP Simple HTML DOM Parser 完全没有运气。

我的例子很简单,似乎符合手册中给出的例子
(simplehtmldom.sourceforge AT net/manual.htm)但它不会工作,
它把我逼疯了。
使用简单 dom 给出的其他示例脚本工作正常。

查看示例:link text 这是我找到的最简单的例子......如何解析它?

我应该用 Perl 来做吗?示例 HTML 页面是无效的 HTML。
我不知道Simple HTML DOM Parser 是否能够处理格式错误的 HTML
(可能不会)。

好吧:如果我不能让它运行,我可以尝试一些 Perl 解析器,例如 HTML::TreeBuilder::XPath

【问题讨论】:

  • 嗨,亲爱的社区。感谢投票 - 我获得了学生徽章!好吧,我会尽我所能。这是我对 Simple-html-dom-parser 的第二次试用......如果有人可以看看这个例子 - 我会很高兴
  • 如果有人有 Simple-html-dom-parser 的工作示例...我会很高兴。- 开发人员网站上的示例不是很有帮助
  • 格式错误的 HTML 很难解析。你想通过解析来达到什么目的,你的最终目标是什么? (以防万一。)
  • 你好奥布林。非常感谢您的快速回答。好吧,我想从表格中取出数据。我想用另一个解析器试试这个会更好:也许我可以找到一些 perl 解析器。你怎么看?!有没有更好的方法——我们可以处理格式错误的 html?

标签: php dom html-parsing


【解决方案1】:

在使用 PHP DOM 解析器解析格式错误的 HTML 之前,使用 Tidy 清理它。

http://www.php.net/manual/en/tidy.examples.basic.php

【讨论】:

  • 我过去不得不使用这种精确的方法来解析任意页面以获取无效 html 的信息。
猜你喜欢
  • 2011-09-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-02-01
  • 2016-05-23
相关资源
最近更新 更多