【发布时间】:2016-11-10 12:13:56
【问题描述】:
我对 apache-nutch/solr 很陌生。我正在尝试使用它来抓取网站。我试着去了解它,但无法获得所需的信息。例如,让我们看一个网站,我需要获取它的标题、标题、内容。我应该如何启动它或任何有效的链接将不胜感激。
【问题讨论】:
-
这个 StOf 答案可能对您有帮助:stackoverflow.com/a/59033556/2849346
我对 apache-nutch/solr 很陌生。我正在尝试使用它来抓取网站。我试着去了解它,但无法获得所需的信息。例如,让我们看一个网站,我需要获取它的标题、标题、内容。我应该如何启动它或任何有效的链接将不胜感激。
【问题讨论】:
通常项目的 wiki 是 good starting point(适用于 Nutch 的 1.x 版)。您没有具体说明您打算使用哪个版本,但目前推荐使用 1.x 版本(也是我个人的偏好)。
【讨论】:
trunk/master 并不像看起来那么危险:) 你只需要在使用 Nutch 之前从源代码构建
schema.xml 文件应该适用于当前版本,尽管在最近的版本中启动 solr 的方法和文件夹结构已经改变,所以如果你想下载当前使用的相同版本,更新教程可能是个好主意构建indexer-solr插件下载v5.5.0