【发布时间】:2017-12-09 05:50:28
【问题描述】:
我在 Hadoop(2.5.2) 多节点集群(AWS EC2 机器)上安装了 Apache Nutch 2.3.1。我已经相应地配置了 Nutch 文件(在主节点上)。我已将 seed.txt 文件(其中包含要抓取的 url)从 master 移动到 Hdfs 文件系统。现在,我运行以下命令进行爬取,
bin/hadoop jar /home/ubuntu/nutch/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1 -topN 5
我遇到了错误,
Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
at org.apache.hadoop.util.RunJar.main(RunJar.java:205)
我已经安装了 java - 1.8.0_151。我发现在这个 java 版本中找不到 Crawl Class。那么,我们应该用java1.7版本替换java1.8还是问题出在其他东西上。
帮我解决这个问题。
【问题讨论】:
标签: hadoop amazon-ec2 java-8 web-crawler nutch