【发布时间】:2010-09-21 10:05:37
【问题描述】:
我需要解析一堆随机页面并将它们添加到数据库中。我正在考虑使用正则表达式,但我想知道是否有任何“特殊”技术(除了在已知文本/标签之间寻找内容)。内容更多(并非总是)如下:
Some Title
Text related to Title
我想我不需要提取完整的文本,而是通过某种方式知道标题/段落的位置并从那里提取内容。内容本身可能有我想保留的图像/链接。
谢谢!
【问题讨论】:
-
快,有人链接到“不要用正则表达式解析 HTML”的咆哮!
-
由于 HTML 几乎是 XML,您可以使用任何旧的 XML 解析器来查找
/html/head/title等。 -
由于 HTML 格式不正确并且浏览器仍然可以容忍,您会惊讶于它的糟糕程度。 XML 解析器经常会被损坏的 XML 所困扰,而正则表达式永远无法用于实际的 HTML 解析。
标签: html parsing html-parsing text-processing