【发布时间】:2010-11-16 06:28:47
【问题描述】:
给定一个 HTML 页面,它是一篇文本繁重的文章,我想识别并解析出主要内容。
以http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html为例,我想识别div#post-4438372351887392855,其中包含标题和文章。
我知道没有什么是完美的或 100% 的工作,但是有没有一种方法可以在合理数量的情况下给我想要的结果?
我目前的想法是遍历每个 div,去掉标记,然后找到包含最多文本的最里面的 div。
此时,我才刚刚开始,所以寻找输入我可以将其用于概念性方法。或者,如果有什么东西,开源库会很好。
提前感谢您的见解。
【问题讨论】: