【发布时间】:2010-09-17 19:20:54
【问题描述】:
我正在尝试从 HTML 页面中抓取一些内容。我正在使用 libxml2 和 htmlReadMemory 来获取 xmlDocPtr。 HTML 很简单,但它有一个问题。基本上是这样的:
<tr><td><tr><td>Some content</td></tr></td></tr>
libxml 不喜欢嵌套的 tr、tds。它一直给我以下错误:
HTML parser error : Unexpected end tag : td
</TD>
^
HTML parser error : Unexpected end tag : tr
</TR>
我正在使用以下选项:HTML_PARSE_RECOVER。
在这一点上,我所做的任何事情都不允许 libxml 解析 HTML。我无法更改 HTML,因为我无权访问它。
任何人都知道如何让 libxml 解析这种 HTML 吗?
谢谢
【问题讨论】: