使用 apache Nutch 进行网络爬取答案

【问题标题】：web crawling using apache Nutch使用 apache Nutch 进行网络爬取
【发布时间】：2016-11-10 12:13:56
【问题描述】：

我对 apache-nutch/solr 很陌生。我正在尝试使用它来抓取网站。我试着去了解它，但无法获得所需的信息。例如，让我们看一个网站，我需要获取它的标题、标题、内容。我应该如何启动它或任何有效的链接将不胜感激。

【问题讨论】：

标签： solr nutch

【解决方案1】：

通常项目的 wiki 是 good starting point（适用于 Nutch 的 1.x 版）。您没有具体说明您打算使用哪个版本，但目前推荐使用 1.x 版本（也是我个人的偏好）。

【讨论】：

不是一个特别的版本，v1.12 是 1.x 分支上的实际稳定版本，所以你可以开始了。同样使用trunk/master 并不像看起来那么危险:) 你只需要在使用 Nutch 之前从源代码构建
你能推荐一个合适的 solr 版本吗？我最近遇到了一个类似的问题，Nutch 1.X 教程中的选项在当前的 Solr 版本中甚至不再存在......
您在谈论哪些选项？ schema.xml 文件应该适用于当前版本，尽管在最近的版本中启动 solr 的方法和文件夹结构已经改变，所以如果你想下载当前使用的相同版本，更新教程可能是个好主意构建indexer-solr插件下载v5.5.0