mapreduce 框架写入什么来拆分元信息文件答案

【问题标题】：What does mapreduce framework write to split metainfo filemapreduce 框架写入什么来拆分元信息文件
【发布时间】：2015-12-28 15:55:38
【问题描述】：

我收到以下关于 mapreduce 作业的错误：

作业初始化失败：java.io.IOException：拆分元数据大小超过 10000000。中止作业 job_201511121020_1680 在 org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48) 在 org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:828) 在 org.apache.hadoop.mapred.JobInProgress.initTasks(JobInProgress.java:730) 在 org.apache.hadoop.mapred.JobTracker.initJob(JobTracker.java:3775) 在 org.apache.hadoop.mapred.EagerTaskInitializationListener$InitJob.run(EagerTaskInitializationListener.java:90) 在 java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) 在 java.lang.Thread.run(Thread.java:662)

此作业的输入路径是：/dir1/dir2///year/mon/day ...（7 天）

这是我从研究中收集的信息：此错误是由于拆分元信息大小超过限制（由 mapreduce.job.split.metainfo.maxsize 设置）引起的。我假设这个元数据被写入一个文件并且它的文件大小已经超过了限制。

我还有几个问题：

框架是为每个作业创建一个文件还是多个文件？
这个文件的内容是什么？然而，鉴于输入路径很深，当我将输入路径返回的所有文件写入一个文件时，它的大小只有几 MBytes。

感谢任何有助于更好地理解此错误的帮助。

【问题讨论】：

标签： hadoop mapreduce

【解决方案1】：

默认情况下，拆分元信息的最大大小设置为10000000

public static final long DEFAULT_SPLIT_METAINFO_MAXSIZE = 10000000L

您可以通过在 mapred-site.xml 中设置配置参数：mapreduce.job.split.metainfo.maxsize 来覆盖它。

现在来回答你的问题：

每个作业创建一个拆分文件。每个作业的拆分文件存储在.staging 文件夹中。拆分文件的名称是job.split。

这个文件的内容是：

1) Split file header: "META-SPL"

2) Split file version: 1

3) Number of splits

4) Information about each split: 
   a) Locations of the split (a split can be present in 3 locations, if the replication factor is 3), 
   b) start offset
   c) length of the split.

您可以在此处找到有关SplitMetaInfo 课程的更多信息：JobSplit.java

【讨论】：