【问题标题】:Web crawling - Identifying the main content on a webpage in Java网络爬虫 - 用 Ja​​va 识别网页上的主要内容
【发布时间】:2011-12-13 01:14:01
【问题描述】:

从事一个小爱好项目,抓取一些网页,主要是我们用户发布的博客和新闻网站。

我们有一个小脚本,它简单地获取 URL 列表并抓取所有内容的页面,基本上是使用 Apache HTTP 组件的 hello world 版本...

无论如何,我们想对这些页面上出现的文本进行一些分析。但是由于任何 URL 都可以以任何格式出现,我们需要一些相当可靠的方法来识别网页上的主要内容(这里有一些错误,也可以)。

是否有人知道任何开源框架或 Java 中的小脚本可用于识别网页中的主要文本内容?

我想到了一些方法,例如简单地查找具有最可见文本的最大 DOM 元素,或者比较用于描述某些文本(即元数据)与实际文本数据的字符数。我希望有人可能会在 Java 中发布一些东西来执行此操作,但如果没有,因为我将遇到麻烦,是否需要这样的实用程序?

干杯!

【问题讨论】:

    标签: java html dom web-crawler data-mining


    【解决方案1】:

    我认为boilerpipe 对你有用。 看看这里:http://code.google.com/p/boilerpipe/

    这里是教程: http://code.google.com/p/boilerpipe/wiki/QuickStart

    对我来说似乎很简单:

    URL url = new URL("http://www.example.com/some-location/index.html");   
    // NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you           
    String text = ArticleExtractor.INSTANCE.getText(url);
    

    【讨论】:

      猜你喜欢
      • 2012-08-01
      • 2012-01-14
      • 1970-01-01
      • 2011-06-08
      • 2017-05-04
      • 2012-10-10
      • 1970-01-01
      相关资源
      最近更新 更多