【问题标题】:What is the best Open Source Web Crawler Tool written in Java? [closed]用 Java 编写的最好的开源 Web 爬虫工具是什么? [关闭] 【发布时间】:2011-12-12 12:14:58 【问题描述】: 什么是最好的开源网络爬虫工具,用 Java 编写。 【问题讨论】: 标签: java web-crawler 【解决方案1】: 试试crawler4j。您只需要实现一个简单的接口来控制要访问的 URL 以及如何处理每个已爬取的页面。 【讨论】: 我在使用此爬虫程序爬取 HTTPS 网站时遇到问题(“网站无法响应”,而它在浏览器中正常打开等) 【解决方案2】: 在 java 中,我认为可以归结为 Nutch 与 Heritrix。您应该指定您的需求以获得更好的答案。 【讨论】: