【问题标题】:How to view fetch list in apache nutch 2.3如何在 apache nutch 2.3 中查看获取列表
【发布时间】:2015-03-04 05:25:50
【问题描述】:

我正在使用 apache nutch 2.3 与 hbase 和 hadoop 一起爬行。我知道第一个注入器作业开始然后生成器作业然后提取器等等。

我想查看由generaorjob 生成的获取器列表,以便在获取开始之前获取一些信息和处理?

【问题讨论】:

    标签: apache web-crawler generator nutch


    【解决方案1】:

    我认为 Nutch 2.3 中引入的基于 Wicket 的新 UI 可以提供帮助。文档不多,但你可以像这样运行它:

    bin/nutch nutchserver -port 8000 &
    bin/nutch webapp -port 9000 &
    

    【讨论】:

    • 亲爱的有一个问题,它没有显示通过终端启动的爬虫的运行实例。它仅适用于那些仅由 webapp 启动的实例。还有其他解决方案吗?
    【解决方案2】:

    我认为通过网络应用程序是不可能的。但是您可以在 hbase 本身中手动查看它们。 :)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-04-27
      相关资源
      最近更新 更多