【发布时间】:2011-05-15 06:05:31
【问题描述】:
我正在尝试构建一个专门的搜索引擎网站,该网站为有限数量的网站编制索引。我想出的解决方案是:
- 使用 Nutch 作为网络爬虫,
- 使用 Solr 作为搜索引擎,
- 前端和站点逻辑使用 Wicket 进行编码。
问题是我发现 Nutch 相当复杂,而且它是一个需要定制的大软件,尽管不存在详细的文档(书籍、最近的教程等)。
现在的问题:
- 对网站的漏洞理念有任何建设性的批评吗?
- 除了 Nutch(作为网站的抓取部分)之外,是否有一个很好但又简单的替代方案?
谢谢
【问题讨论】:
-
多年来,我们尝试了各种方法:Nutch、Heritrix、Storm Crawler、crawler4j、我们自己的内部爬虫……但是,只有一个真正令人印象深刻的替代品是我们整个团队发誓的: 混合节点。
标签: search-engine web-crawler nutch