【发布时间】:2014-11-21 07:49:12
【问题描述】:
我的 apache nutch 正在爬行,并且在日志文件中出现以下错误。
错误 store.HBaseStore - 连接被拒绝 2014-11-17 00:00:38,255 错误 store.HBaseStore - [Ljava.lang.StackTraceElement;@6dce5061
如何消除此错误。根据我的搜索,这个错误是因为 hbase 而不是 nutch。此问题已发布here,但没有答案。如果没有得到答案,我必须赏金这个问题,这就是我再次发布的原因。
我的小集群的一些信息如下(2机器集群)
在第一台机器上,hadoop 和 hbase 正在运行
在机器二上,apache nutch crawler(2.2.1) 正在运行。
当我检查 hbase 和 hadoop 的日志文件时,没有任何关于 bug 的信息。由于这个错误,爬取的数据不会保存在 hbase(machine1) 中。这对我和我的爬虫来说是一个真正的问题,不能正确地爬虫。表中已经爬取了大约 266 GB 的数据。
【问题讨论】:
标签: apache hbase web-crawler nutch