【发布时间】:2014-12-10 09:01:47
【问题描述】:
我使用自定义 InputFormat 和 RecordReader 创建了自定义 loadFunc。
每当InputFormat 返回多个输入拆分时,PigSplit 总是只包含一个输入拆分并且只使用一个映射器。
实现太大了,无法在此处发布,但是有什么明显的原因会导致这种情况发生吗?
编辑:我正在使用pig 0.13 并通过添加一些日志记录我发现
由Loadfunc 创建的InputFormat 返回一个包含两个输入拆分的列表,然后PigInputFormat 使用此列表创建PigSplits。
我仍然不知道 Pig 在哪里省略了其中一个输入拆分,只使用了第一个。
这是 PigInputFormat.java (src) 第 273 行的代码
InputFormat inpFormat = loadFunc.getInputFormat();
List<InputSplit> oneInputSplits = inpFormat.getSplits(
HadoopShims.createJobContext(inputSpecificJob.getConfiguration(), jobcontext.getJobID()));
List<InputSplit> oneInputPigSplits = getPigSplits(oneInputSplits, i, inpTargets.get(i), HadoopShims.getDefaultBlockSize(fs, isFsPath? path: fs.getWorkingDirectory()),
combinable, confClone);
splits.addAll(oneInputPigSplits);
我确保 loadFunc 返回 2 个输入拆分,但不知何故只创建了一个 PigSplit。 任何关于如何解决这个问题的线索。
编辑 2:所以我下载了 pig 0.13 的源代码并编译它并运行我的脚本,令人惊讶的是它运行良好,并且在我这样做时使用了两个拆分,不幸的是我不能在服务器节点上这样做。 我注意到,在 cloudera 中的现成编译版本和我编译的下载版本之间,创建输入分割的堆栈跟踪是不同的。
cloudera 版本使用 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat 创建 InputSplits,而下载版本使用 org.apache.pig.impl.io.ReadToEndLoader
我真的对这个感到困惑。
【问题讨论】:
标签: java hadoop mapreduce apache-pig