【发布时间】:2015-03-04 05:25:50
【问题描述】:
我正在使用 apache nutch 2.3 与 hbase 和 hadoop 一起爬行。我知道第一个注入器作业开始然后生成器作业然后提取器等等。
我想查看由generaorjob 生成的获取器列表,以便在获取开始之前获取一些信息和处理?
【问题讨论】:
标签: apache web-crawler generator nutch
我正在使用 apache nutch 2.3 与 hbase 和 hadoop 一起爬行。我知道第一个注入器作业开始然后生成器作业然后提取器等等。
我想查看由generaorjob 生成的获取器列表,以便在获取开始之前获取一些信息和处理?
【问题讨论】:
标签: apache web-crawler generator nutch
我认为 Nutch 2.3 中引入的基于 Wicket 的新 UI 可以提供帮助。文档不多,但你可以像这样运行它:
bin/nutch nutchserver -port 8000 &
bin/nutch webapp -port 9000 &
【讨论】:
我认为通过网络应用程序是不可能的。但是您可以在 hbase 本身中手动查看它们。 :)
【讨论】: