【问题标题】:setting up and running apache nutch 2.2.1设置和运行 apache nutch 2.2.1
【发布时间】:2014-12-09 08:27:01
【问题描述】:

我正在尝试在我的 ubuntu 桌面上设置和运行 apache nutch 2.2.1。作为一个新手,我发现官网给出的教程的某些部分有些混乱。

  1. 如果我要在自己的桌面上运行它,转到

    $NUTCH_HOME/runtime/local 
    

运行 bin/nutch 命令?

  1. 我应该把名为 urls 的文件放在哪里? (其中有一个种子列表seed.txt)是不是在

    $NUTCH_HOME/runtime/local
    

如果我在正确的目录中,我在执行命令时遇到了这个问题

bin/nutch crawl urls -dir crawl -depth 1

InjectorJob:使用类 org.apache.gora.memory.store.MemStore 作为 Gora 存储类。 InjectorJob:过滤器拒绝的网址总数:0 InjectorJob:归一化过滤后注入的url总数:0 线程“主”java.lang.RuntimeException 中的异常:作业失败:name=generate:null,jobid=job_local1613558008_0002 在 org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 在 org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 在 org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

我正在关注教程 1 http://wiki.apache.org/nutch/NutchTutorial 直到 3.3 并且尚未配置 GORA Hbase 等。 似乎出现此问题是因为注入器没有获取 url。 有谁知道如何解决这个问题?非常感谢!

【问题讨论】:

标签: apache hbase nutch gora


【解决方案1】:

你应该去$NUTCH_HOME/runtime/deploy运行命令

【讨论】:

    【解决方案2】:

    如果您想与 GORA 和 Hbase 集成,请在 Nutchsite.xml 中提及这一点

     <property>
            <name>storage.data.store.class</name>
            <value>org.apache.gora.hbase.store.HBaseStore</value>
            <description>Default class for storing data</description>
        </property>
    

    【讨论】:

    • 不太清楚您的建议或您在这里回答的问题的哪一部分,您能否编辑此答案以提供更多详细信息?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多