解析随机网页答案

【问题标题】：Parsing Random Web Pages解析随机网页
【发布时间】：2010-09-21 10:05:37
【问题描述】：

我需要解析一堆随机页面并将它们添加到数据库中。我正在考虑使用正则表达式，但我想知道是否有任何“特殊”技术（除了在已知文本/标签之间寻找内容）。内容更多（并非总是）如下：

Some Title
Text related to Title

我想我不需要提取完整的文本，而是通过某种方式知道标题/段落的位置并从那里提取内容。内容本身可能有我想保留的图像/链接。

谢谢！

【问题讨论】：

快，有人链接到“不要用正则表达式解析 HTML”的咆哮！
由于 HTML 几乎是 XML，您可以使用任何旧的 XML 解析器来查找 /html/head/title 等。
由于 HTML 格式不正确并且浏览器仍然可以容忍，您会惊讶于它的糟糕程度。 XML 解析器经常会被损坏的 XML 所困扰，而正则表达式永远无法用于实际的 HTML 解析。

【解决方案1】：

【讨论】：

【解决方案2】：

【讨论】：

【解决方案3】：

您需要使用适当的 HTML 解析器，并通过解析器的 API（或通过 DOM）提取您感兴趣的元素。

由于我不知道您在使用哪种语言进行编程，因此很难推荐一个解析器，但是一些众所周知的解析器是用于 Java 的 Jericho 和用于 Python 的 Beautiful Soup。

【讨论】：