网络爬虫 - 用 Java 识别网页上的主要内容答案

【问题标题】：Web crawling - Identifying the main content on a webpage in Java网络爬虫 - 用 Java 识别网页上的主要内容
【发布时间】：2011-12-13 01:14:01
【问题描述】：

从事一个小爱好项目，抓取一些网页，主要是我们用户发布的博客和新闻网站。

我们有一个小脚本，它简单地获取 URL 列表并抓取所有内容的页面，基本上是使用 Apache HTTP 组件的 hello world 版本...

无论如何，我们想对这些页面上出现的文本进行一些分析。但是由于任何 URL 都可以以任何格式出现，我们需要一些相当可靠的方法来识别网页上的主要内容（这里有一些错误，也可以）。

是否有人知道任何开源框架或 Java 中的小脚本可用于识别网页中的主要文本内容？

我想到了一些方法，例如简单地查找具有最可见文本的最大 DOM 元素，或者比较用于描述某些文本（即元数据）与实际文本数据的字符数。我希望有人可能会在 Java 中发布一些东西来执行此操作，但如果没有，因为我将遇到麻烦，是否需要这样的实用程序？

干杯！

【问题讨论】：

标签： java html dom web-crawler data-mining

【解决方案1】：

我认为boilerpipe 对你有用。看看这里：http://code.google.com/p/boilerpipe/

这里是教程： http://code.google.com/p/boilerpipe/wiki/QuickStart

对我来说似乎很简单：

URL url = new URL("http://www.example.com/some-location/index.html");   
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you           
String text = ArticleExtractor.INSTANCE.getText(url);

【讨论】：