【问题标题】:Nutch crawling fails after few iterations with Runtime Exception几次迭代后,Nutch 抓取失败并出现运行时异常
【发布时间】:2019-01-22 06:39:50
【问题描述】:

我们使用的是 Nutch 2.3.1-src 版本。执行深度为 200 的抓取命令。但经过几次迭代后,获取失败并出现下面提到的运行时异常。

java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large
Exception at GoraRecordWriter.class while writing to datastore: KeyValue size too large

抓取命令:

/Data/Apache/apache-nutch-2.3.1/runtime/local/bin/crawl /Data/Apache/apache-nutch-2.3.1/runtime/local/urls crawl-nutch http://localhost:9200/test/ 200

【问题讨论】:

    标签: web-crawler nutch depth


    【解决方案1】:

    请问您使用的是哪个后端? 如果是 HBase,那么您已经更新了最大 KeyValue 大小配置。此配置在 hbase-site.xml 文件中,默认为 10MB

    <property> <name>hbase.client.keyvalue.maxsize</name> <value>10485760</value> </property>

    【讨论】:

    • 是的,我们正在使用 HBase。谢谢,更新了这个属性。早些时候,该过程因此错误而中止。更新此属性后,我们仍然收到该错误。但它并没有停止这个过程。有什么想法可以完全摆脱这个错误吗?
    • 所有进程的配置文件都一样吗?我的意思是你更新了它,但具体在哪里?它必须是相同的(或者它们都应该指向同一个)hbase 集群和 nutch(gora 应该能够获取 nutch 指向的配置文件)
    猜你喜欢
    • 1970-01-01
    • 2018-08-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-22
    • 1970-01-01
    相关资源
    最近更新 更多