【发布时间】:2015-12-22 09:53:24
【问题描述】:
我正在使用 apache nutch 2.3、hadoop 1.2.1(3 个数据节点)、hbase 0.94、solr 4.8。为了运行 apache nutch 是分布式模式。我做了以下步骤
- 转到运行时/部署目录
- 将 apache-nutch-2.3.jar 复制到部署目录
- 运行这个命令runtime/deploy/bin/crawl urls/hbase_tablehttp://solrHost:8983/solr1
其中 hbase_table 是 nutch 将存储数据的 hbase 表的名称。 命令启动后,每个 phbase 的 Mapreduce 作业都会启动,即注入、生成、fetech、dedup、sorlrindex。所有这些 mapreduce 作业都没有任何错误地完成。但是当我从 HDFS 检查时,hbase_table 中没有数据。配置问题出在哪里。不幸的是,分布式模式指南中的 Apache nutch 并不完全可用(根据我的搜索)
【问题讨论】: