【问题标题】:What is the best Open Source Web Crawler Tool written in Java? [closed]用 Java 编写的最好的开源 Web 爬虫工具是什么? [关闭]
【发布时间】:2011-12-12 12:14:58
【问题描述】:

什么是最好的开源网络爬虫工具,用 Java 编写。

【问题讨论】:

    标签: java web-crawler


    【解决方案1】:

    试试crawler4j。您只需要实现一个简单的接口来控制要访问的 URL 以及如何处理每个已爬取的页面。

    【讨论】:

    • 我在使用此爬虫程序爬取 HTTPS 网站时遇到问题(“网站无法响应”,而它在浏览器中正常打开等)
    【解决方案2】:

    在 java 中,我认为可以归结为 NutchHeritrix。您应该指定您的需求以获得更好的答案。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-09-15
      • 1970-01-01
      • 2011-05-20
      • 1970-01-01
      相关资源
      最近更新 更多