【问题标题】:web crawling using apache Nutch使用 apache Nutch 进行网络爬取
【发布时间】:2016-11-10 12:13:56
【问题描述】:

我对 apache-nutch/solr 很陌生。我正在尝试使用它来抓取网站。我试着去了解它,但无法获得所需的信息。例如,让我们看一个网站,我需要获取它的标题、标题、内容。我应该如何启动它或任何有效的链接将不胜感激。

【问题讨论】:

标签: solr nutch


【解决方案1】:

通常项目的 wiki 是 good starting point(适用于 Nutch 的 1.x 版)。您没有具体说明您打算使用哪个版本,但目前推荐使用 1.x 版本(也是我个人的偏好)。

【讨论】:

  • 不是一个特别的版本,v1.12 是 1.x 分支上的实际稳定版本,所以你可以开始了。同样使用trunk/master 并不像看起来那么危险:) 你只需要在使用 Nutch 之前从源代码构建
  • 你能推荐一个合适的 solr 版本吗?我最近遇到了一个类似的问题,Nutch 1.X 教程中的选项在当前的 Solr 版本中甚至不再存在......
  • 您在谈论哪些选项? schema.xml 文件应该适用于当前版本,尽管在最近的版本中启动 solr 的方法和文件夹结构已经改变,所以如果你想下载当前使用的相同版本,更新教程可能是个好主意构建indexer-solr插件下载v5.5.0
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多