【问题标题】:Pig custom loadFunc always use 1 mapper and 1 inputSplitPig 自定义 loadFunc 始终使用 1 个映射器和 1 个 inputSplit
【发布时间】:2014-12-10 09:01:47
【问题描述】:

我使用自定义 InputFormatRecordReader 创建了自定义 loadFunc。 每当InputFormat 返回多个输入拆分时,PigSplit 总是只包含一个输入拆分并且只使用一个映射器。

实现太大了,无法在此处发布,但是有什么明显的原因会导致这种情况发生吗?

编辑:我正在使用pig 0.13 并通过添加一些日志记录我发现 由Loadfunc 创建的InputFormat 返回一个包含两个输入拆分的列表,然后PigInputFormat 使用此列表创建PigSplits

我仍然不知道 Pig 在哪里省略了其中一个输入拆分,只使用了第一个。

这是 PigInputFormat.java (src) 第 273 行的代码

 InputFormat inpFormat = loadFunc.getInputFormat();
 List<InputSplit> oneInputSplits = inpFormat.getSplits(
 HadoopShims.createJobContext(inputSpecificJob.getConfiguration(), jobcontext.getJobID()));
 List<InputSplit> oneInputPigSplits = getPigSplits(oneInputSplits, i, inpTargets.get(i), HadoopShims.getDefaultBlockSize(fs, isFsPath? path: fs.getWorkingDirectory()),
combinable, confClone);
splits.addAll(oneInputPigSplits);

我确保 loadFunc 返回 2 个输入拆分,但不知何故只创建了一个 PigSplit。 任何关于如何解决这个问题的线索。

编辑 2:所以我下载了 pig 0.13 的源代码并编译它并运行我的脚本,令人惊讶的是它运行良好,并且在我这样做时使用了两个拆分,不幸的是我不能在服务器节点上这样做。 我注意到,在 cloudera 中的现成编译版本和我编译的下载版本之间,创建输入分割的堆栈跟踪是不同的。

cloudera 版本使用 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat 创建 InputSplits,而下载版本使用 org.apache.pig.impl.io.ReadToEndLoader

我真的对这个感到困惑。

【问题讨论】:

    标签: java hadoop mapreduce apache-pig


    【解决方案1】:

    所以在调查后发现,Pig 版本

    正如我在问题中提到的,加载 InputSplits 的行为在那之后发生了变化,在这些情况下不需要解决。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-09-24
      • 1970-01-01
      • 2018-09-26
      • 1970-01-01
      • 1970-01-01
      • 2015-03-04
      • 2015-02-15
      相关资源
      最近更新 更多