【问题标题】:Nutch 2.3 not generate/crawlingNutch 2.3 不生成/爬行
【发布时间】:2016-02-10 04:43:11
【问题描述】:

我是 Nutch 的新手。我已经安装了 Nutch 2.3 并一直在运行,直到注入种子 URL ($NUTCH_ROOT/runtime/local/bin/nutch 注入文件:///path/to/seed/)。

当我执行下一个命令时: $NUTCH_ROOT/runtime/local/bin/nutch 生成 -topN 10
我收到此错误:

GeneratorJob: starting at 2016-02-09 23:31:01
GeneratorJob: Selecting best-scoring urls due for fetch.
GeneratorJob: starting
GeneratorJob: filtering: true
GeneratorJob: normalizing: true
GeneratorJob: topN: 10
GeneratorJob: java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local1073670973_0001
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120)
    at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:227)
    at org.apache.nutch.crawl.GeneratorJob.generate(GeneratorJob.java:256)
    at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:322)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.nutch.crawl.GeneratorJob.main(GeneratorJob.java:330)

关于从这里去哪里或寻找什么有什么建议吗?

对于这个问题的任何帮助将不胜感激!

【问题讨论】:

    标签: java apache web-crawler nutch


    【解决方案1】:

    您的日志显示您正在运行 nutch 2.3.1 版本,并且您说您使用的是 2.3 版本。

    2.3.1 版本添加了许多与其他技术的新兼容性(请参阅release notes)。

    也许你使用了 2 个不兼容的版本。

    【讨论】:

      【解决方案2】:

      你能检查一下你的数据库在磁盘上的空间吗? 因为在 nutch 2.X 中,您使用了一个额外的数据库(Hbase、Cassandra...),并且您可能没有足够的空间来存储数据、临时文件或其他文件...

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2015-04-11
        相关资源
        最近更新 更多