【问题标题】:Parsing Random Web Pages解析随机网页
【发布时间】:2010-09-21 10:05:37
【问题描述】:

我需要解析一堆随机页面并将它们添加到数据库中。我正在考虑使用正则表达式,但我想知道是否有任何“特殊”技术(除了在已知文本/标签之间寻找内容)。内容更多(并非总是)如下:

Some Title
Text related to Title

我想我不需要提取完整的文本,而是通过某种方式知道标题/段落的位置并从那里提取内容。内容本身可能有我想保留的图像/链接。

谢谢!

【问题讨论】:

  • 快,有人链接到“不要用正则表达式解析 HTML”的咆哮!
  • 由于 HTML 几乎是 XML,您可以使用任何旧的 XML 解析器来查找 /html/head/title 等。
  • 由于 HTML 格式不正确并且浏览器仍然可以容忍,您会惊讶于它的糟糕程度。 XML 解析器经常会被损坏的 XML 所困扰,而正则表达式永远无法用于实际的 HTML 解析。

标签: html parsing html-parsing text-processing


【解决方案1】:

【讨论】:

    【解决方案2】:

    【讨论】:

    • 谢谢!我打算使用 .NET。
    • @Venkateshwar:请用所有事实更新您的问题。 Python 和 Beautiful Soup 在 .Net 中完美运行
    【解决方案3】:

    您需要使用适当的 HTML 解析器,并通过解析器的 API(或通过 DOM)提取您感兴趣的元素。

    由于我不知道您在使用哪种语言进行编程,因此很难推荐一个解析器,但是一些众所周知的解析器是用于 Java 的 Jericho 和用于 Python 的 Beautiful Soup

    【讨论】:

      猜你喜欢
      • 2014-08-23
      • 1970-01-01
      • 2013-01-26
      • 1970-01-01
      • 1970-01-01
      • 2013-01-12
      • 1970-01-01
      • 2011-10-28
      相关资源
      最近更新 更多