Pig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit答案

【问题标题】：Pig custom loadFunc always use 1 mapper and 1 inputSplitPig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit
【发布时间】：2014-12-10 09:01:47
【问题描述】：

我使用自定义 InputFormat 和 RecordReader 创建了自定义 loadFunc。每当InputFormat 返回多个输入拆分时，PigSplit 总是只包含一个输入拆分并且只使用一个映射器。

实现太大了，无法在此处发布，但是有什么明显的原因会导致这种情况发生吗？

编辑：我正在使用pig 0.13 并通过添加一些日志记录我发现由Loadfunc 创建的InputFormat 返回一个包含两个输入拆分的列表，然后PigInputFormat 使用此列表创建PigSplits。

我仍然不知道 Pig 在哪里省略了其中一个输入拆分，只使用了第一个。

这是 PigInputFormat.java (src) 第 273 行的代码

 InputFormat inpFormat = loadFunc.getInputFormat();
 List<InputSplit> oneInputSplits = inpFormat.getSplits(
 HadoopShims.createJobContext(inputSpecificJob.getConfiguration(), jobcontext.getJobID()));
 List<InputSplit> oneInputPigSplits = getPigSplits(oneInputSplits, i, inpTargets.get(i), HadoopShims.getDefaultBlockSize(fs, isFsPath? path: fs.getWorkingDirectory()),
combinable, confClone);
splits.addAll(oneInputPigSplits);

我确保 loadFunc 返回 2 个输入拆分，但不知何故只创建了一个 PigSplit。任何关于如何解决这个问题的线索。

编辑 2：所以我下载了 pig 0.13 的源代码并编译它并运行我的脚本，令人惊讶的是它运行良好，并且在我这样做时使用了两个拆分，不幸的是我不能在服务器节点上这样做。我注意到，在 cloudera 中的现成编译版本和我编译的下载版本之间，创建输入分割的堆栈跟踪是不同的。

cloudera 版本使用 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat 创建 InputSplits，而下载版本使用 org.apache.pig.impl.io.ReadToEndLoader

我真的对这个感到困惑。

【问题讨论】：

标签： java hadoop mapreduce apache-pig

【解决方案1】：

所以在调查后发现，Pig 版本

正如我在问题中提到的，加载 InputSplits 的行为在那之后发生了变化，在这些情况下不需要解决。

【讨论】：