在 Apache Nutch 中爬行时出错答案

【问题标题】：Error while crawling in Apache Nutch在 Apache Nutch 中爬行时出错
【发布时间】：2017-12-09 05:50:28
【问题描述】：

我在 Hadoop(2.5.2) 多节点集群（AWS EC2 机器）上安装了 Apache Nutch 2.3.1。我已经相应地配置了 Nutch 文件（在主节点上）。我已将 seed.txt 文件（其中包含要抓取的 url）从 master 移动到 Hdfs 文件系统。现在，我运行以下命令进行爬取，

bin/hadoop jar /home/ubuntu/nutch/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1 -topN 5

我遇到了错误，

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:348)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:205)

我已经安装了 java - 1.8.0_151。我发现在这个 java 版本中找不到 Crawl Class。那么，我们应该用java1.7版本替换java1.8还是问题出在其他东西上。

帮我解决这个问题。

【问题讨论】：

标签： hadoop amazon-ec2 java-8 web-crawler nutch

【解决方案1】：

类org.apache.nutch.crawl.Crawl 已被删除多年。建议改为运行 shell 脚本 bin/crawl。它将为爬网的每个步骤启动 Hadoop 作业：注入、生成、获取、解析等。或者，您可以通过 bin/nutch 运行每个步骤，参见。 https://wiki.apache.org/nutch/Nutch2Tutorial

【讨论】：