hadoop中输入拆分的自定义输入格式

【问题标题】：Custom Input format for input split in hadoophadoop中输入拆分的自定义输入格式
【发布时间】：2017-07-12 00:12:29
【问题描述】：

我是否能够将整个 input split 放入映射器，而不是将每一行输入拆分成映射器。

为此，我需要实现自己的自定义输入格式。但如果我写的是WholeFileInputFormat

这是否意味着映射器获得整行或整个输入拆分？

NLineInputFormat 能解决我的问题吗？

【问题讨论】：

【解决方案1】：

我不会打扰NLineInputFormat。您可能并不总是知道 N 是什么，并且您不需要读取每个文件的输入格式的开销来查找行字节偏移量。

来自here 的WholeFileInputFormat （我假设您引用的内容）会将整个文件作为值传递给map 方法。

【讨论】：

但是无论是完整的输入文件还是输入拆分。如果是完整的输入文件-Hadoop如何在使用WholeInputFormat作为映射获取整个文件内容并且不会进行并行化时管理文件..