识别页面的主要内容答案

【问题标题】：Identifying a Page's Primary Content识别页面的主要内容
【发布时间】：2010-11-16 06:28:47
【问题描述】：

给定一个 HTML 页面，它是一篇文本繁重的文章，我想识别并解析出主要内容。

以http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html为例，我想识别div#post-4438372351887392855，其中包含标题和文章。

我知道没有什么是完美的或 100% 的工作，但是有没有一种方法可以在合理数量的情况下给我想要的结果？

我目前的想法是遍历每个 div，去掉标记，然后找到包含最多文本的最里面的 div。

此时，我才刚刚开始，所以寻找输入我可以将其用于概念性方法。或者，如果有什么东西，开源库会很好。

提前感谢您的见解。

【问题讨论】：

【解决方案1】：

主要内容提取的最完整资源编译列表是：

还可以查看 cmets，因为有额外的提示。

【讨论】：

【解决方案2】：

arc90 的一些人通过readability bookmarklet 在这方面做得非常出色。它似乎在查找“主要”内容方面做得很好——在您列出的页面上完美运行。
您可以查看他们注释良好的 javascript（链接到书签中），但您可能需要联系开发人员以获取他们的想法和使用它们的权限。

【讨论】：