【问题标题】:Identifying a Page's Primary Content识别页面的主要内容
【发布时间】:2010-11-16 06:28:47
【问题描述】:

给定一个 HTML 页面,它是一篇文本繁重的文章,我想识别并解析出主要内容。

http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html为例,我想识别div#post-4438372351887392855,其中包含标题和文章。

我知道没有什么是完美的或 100% 的工作,但是有没有一种方法可以在合理数量的情况下给我想要的结果?

我目前的想法是遍历每个 div,去掉标记,然后找到包含最多文本的最里面的 div。

此时,我才刚刚开始,所以寻找输入我可以将其用于概念性方法。或者,如果有什么东西,开源库会很好。

提前感谢您的见解。

【问题讨论】:

    标签: parsing semantics


    【解决方案1】:

    主要内容提取的最完整资源编译列表是:

    1. Extracting article text from html documents
    2. List of resources: article text extraction from html documents

    还可以查看 cmets,因为有额外的提示。

    【讨论】:

      【解决方案2】:

      arc90 的一些人通过readability bookmarklet 在这方面做得非常出色。 它似乎在查找“主要”内容方面做得很好——在您列出的页面上完美运行。
      您可以查看他们注释良好的 javascript(链接到书签中),但您可能需要联系开发人员以获取他们的想法和使用它们的权限。

      【讨论】:

        猜你喜欢
        • 2011-06-08
        • 2011-05-15
        • 1970-01-01
        • 2011-12-13
        • 2010-11-07
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多