【问题标题】:Nutch (2.2.1) Inject Urls Hangs [closed]Nutch(2.2.1)注入网址挂起[关闭]
【发布时间】:2014-06-09 14:04:50
【问题描述】:

我正在运行 Ubuntu 14.04,我想要让一个基本的 Nutch Web Crawl 运行无济于事。按照this 教程,我设置了以下构建块:

  • Ubuntu 14.04
  • HBase 0.90.4
  • Nutch 2.2.1
  • Solr 4.3.1

我确认 HBase 和 Solr 都在运行,我填充了 urls/seed.txt 文件。然后当我打电话时;

bin/nutch inject urls

我看到以下输出,然后看起来 Nutch 只是挂起。

InjectorJob: starting at 2014-06-09 23:38:49
InjectorJob: Injecting urlDir: urls/seed.txt

Thisstackoverflow 问题似乎与我的相似,但我不在代理后面,因此答案不适用。

我们将不胜感激任何解决此问题的帮助。

【问题讨论】:

  • @Andrew-Barber 您能否详细说明为什么我的问题是题外话。我觉得tutorial 的链接与所述教程中的确切故障点以及各自的 Ubuntu 和 Nutch 版本相结合,使问题变得最小、完整和可验证。

标签: solr hbase nutch ubuntu-14.04


【解决方案1】:

Ubuntu 将主机中的环回 IP 地址默认为 127.0.1.1。 HBase(根据this page)要求您的环回IP地址为127.0.0.1。

Ubuntu /etc/hosts 文件默认包含(myComputerName 是您的计算机名称):

127.0.0.1   localhost
127.0.1.1   myComputerName

使用sudo gedit /etc/hosts 更新您的主机文件如下:

127.0.0.1   localhost
127.0.0.1   myComputerName

重启 Ubuntu。 Nutch 应该不再有将 url 注入 HBase 的问题。

【讨论】:

  • 我已经更新了同样的东西,这仍然是我的不工作。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-04-21
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多