【发布时间】:2011-12-13 01:14:01
【问题描述】:
从事一个小爱好项目,抓取一些网页,主要是我们用户发布的博客和新闻网站。
我们有一个小脚本,它简单地获取 URL 列表并抓取所有内容的页面,基本上是使用 Apache HTTP 组件的 hello world 版本...
无论如何,我们想对这些页面上出现的文本进行一些分析。但是由于任何 URL 都可以以任何格式出现,我们需要一些相当可靠的方法来识别网页上的主要内容(这里有一些错误,也可以)。
是否有人知道任何开源框架或 Java 中的小脚本可用于识别网页中的主要文本内容?
我想到了一些方法,例如简单地查找具有最可见文本的最大 DOM 元素,或者比较用于描述某些文本(即元数据)与实际文本数据的字符数。我希望有人可能会在 Java 中发布一些东西来执行此操作,但如果没有,因为我将遇到麻烦,是否需要这样的实用程序?
干杯!
【问题讨论】:
标签: java html dom web-crawler data-mining