【问题标题】:Apache Nutch: FetcherJob throws NoSuchElementException deep in GoraApache Nutch:FetcherJob 在 Gora 深处抛出 NoSuchElementException
【发布时间】:2016-10-03 14:49:15
【问题描述】:

我正在运行 Apache Nutch 2.3.1 开箱即用,它使用 Gora 0.6.1。我已按照此处的说明进行操作:http://wiki.apache.org/nutch/RunNutchInEclipse

InjectorJob 运行良好。

现在我正在运行FetcherJob,Gora 使用MemStore 作为数据存储。我有gora.properties 包含

gora.datastore.default=org.apache.gora.memory.store.MemStore

这会抛出:

2016-10-02 22:55:54,605 ERROR mapreduce.GoraRecordReader (GoraRecordReader.java:nextKeyValue(121)) - Error reading Gora records: null
2016-10-02 22:55:54,605 INFO  mapred.MapTask (MapTask.java:flush(1460)) - Starting flush of map output
2016-10-02 22:55:54,614 INFO  mapred.LocalJobRunner (LocalJobRunner.java:runTasks(456)) - map task executor complete.
2016-10-02 22:55:54,615 WARN  mapred.LocalJobRunner (LocalJobRunner.java:run(560)) - job_local874667143_0001
java.lang.Exception: java.lang.RuntimeException: java.util.NoSuchElementException
    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)
Caused by: java.lang.RuntimeException: java.util.NoSuchElementException
    at org.apache.gora.mapreduce.GoraRecordReader.nextKeyValue(GoraRecordReader.java:122)
    at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:556)
    at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:80)
    at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.nextKeyValue(WrappedMapper.java:91)
    at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
    at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:243)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.util.NoSuchElementException
    at java.util.concurrent.ConcurrentSkipListMap.firstKey(ConcurrentSkipListMap.java:2036)
    at org.apache.gora.memory.store.MemStore.execute(MemStore.java:128)
    at org.apache.gora.query.impl.QueryBase.execute(QueryBase.java:73)
    at org.apache.gora.mapreduce.GoraRecordReader.executeQuery(GoraRecordReader.java:67)
    at org.apache.gora.mapreduce.GoraRecordReader.nextKeyValue(GoraRecordReader.java:109)
    ... 12 more
2016-10-02 22:55:55,383 INFO  mapreduce.Job (Job.java:monitorAndPrintJob(1360)) - Job job_local874667143_0001 running in uber mode : false
2016-10-02 22:55:55,385 INFO  mapreduce.Job (Job.java:monitorAndPrintJob(1367)) -  map 0% reduce 0%
2016-10-02 22:55:55,387 INFO  mapreduce.Job (Job.java:monitorAndPrintJob(1380)) - Job job_local874667143_0001 failed with state FAILED due to: NA
2016-10-02 22:55:55,396 INFO  mapreduce.Job (Job.java:monitorAndPrintJob(1385)) - Counters: 0
Exception in thread "main" java.lang.RuntimeException: job failed: name=, jobid=job_local874667143_0001
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:119)
    at org.apache.nutch.fetcher.FetcherJob.run(FetcherJob.java:205)
    at org.apache.nutch.fetcher.FetcherJob.fetch(FetcherJob.java:251)
    at org.apache.nutch.fetcher.FetcherJob.run(FetcherJob.java:314)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.nutch.fetcher.FetcherJob.main(FetcherJob.java:321)

这种情况发生在 Nutch 和 Gora 的深处,我不知道为什么会这样。我尝试升级到 Gora 0.8 但同样的问题。我尝试将 Gora 降级到 0.6,同样的问题。我想切换到像 hBase 这样的另一个数据存储,但这对于我目前需要的东西来说有点矫枉过正。

请帮我解决这个问题。

【问题讨论】:

  • 你在 Apache Nutch 2.3.1 和 Gora 0.6.1 上是对的,但你为什么要尝试用 MemStore 爬取呢?它会在完成后丢弃所有结果。
  • 我使用本地HBase安装,没有问题。我会检查 MemStore 发生了什么,但我建议你切换到 HBase。
  • 顺便说一句,如果我没记错的话,当你用 MemStore 执行“fetch”时,数据应该是空的。新的 JVM,新的 Map 对象(空)。 - 哦,现在我看到你在 Eclipse 中运行。我从未尝试过。
  • 这是Gora 后期版本中解决的bug。
  • 添加了一个补丁,以便您可以将 Gora-0.7-SNAPSHOT 与 Nutch 2.3.1 一起使用(或者至少它适用于 2.x 分支)

标签: java apache nutch gora


【解决方案1】:

我确认问题出在 MemStore 中。

在 0.6.1 中有一个错误: https://github.com/apache/gora/blob/apache-gora-0.6.1/gora-core/src/main/java/org/apache/gora/memory/store/MemStore.java#L128

这已经在master中解决了:https://github.com/apache/gora/blob/master/gora-core/src/main/java/org/apache/gora/memory/store/MemStore.java#L155,对#firstKey()的访问有一个守卫#isEmpty()

但是,不要尝试更新到 Gora 0.7-SNAPSHOT,因为 Nutch 现在还没有适应它。

编辑

如果你想在 Nutch 2.x 中使用 Gora-0.7-SNAPSHOT,也许你可以让它工作:

  1. 下载 Gora 的 master 分支,版本为 0.7-SNAPSHOT
  2. 在 gora/ 中执行 mvn install 以将其安装到 maven 的本地存储库中
  3. 将此补丁应用到 Nutch:https://paste.apache.org/jjqz,以便 Nutch 2.3.1 可以与 Gora 0.7-SNAPSHOT 一起使用
  4. 做 Nutch 的教程内容

我希望它有效:)

编辑 2

关于使用HBase,很容易做一个本地安装来做实验。

  1. Nutch2Tutorial中所述,下载HBase 0.98.8-hadoop2
  2. 在一个目录下膨胀tar.gz文件,例如:/home/you/hbase
  3. cd /home/you/hbase/bin
  4. ./start-hbase.sh

现在您已经启动并运行了 HBase。 配置 Nutch:

常春藤/ivy.xml: 看@Emmanuel 对 HBase 的 ivy 依赖配置的评论。

gora.properties:

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
gora.datastore.autocreateschema=true
gora.datastore.scanner.caching=100

nutch-site.xml:

<configuration>
<property>
 <name>storage.data.store.class</name>
 <value>org.apache.gora.hbase.store.HBaseStore</value>
 <description>Default class for storing data</description>
</property>
</configuration>

完成。它将采用 HBase 的所有默认配置:localhost、/tmp/...、blablabla

【讨论】:

  • 好的,正如许多人的建议,我已经转向 HBase 而不是 MemStore。我跟着你的编辑2。我还在ivy.xml中添加了这个:
猜你喜欢
  • 1970-01-01
  • 2016-10-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多