【发布时间】:2017-07-12 00:12:29
【问题描述】:
我是否能够将整个 input split 放入映射器,而不是将每一行输入拆分成映射器。
为此,我需要实现自己的自定义输入格式。
但如果我写的是WholeFileInputFormat
这是否意味着映射器获得整行或整个输入拆分?
NLineInputFormat 能解决我的问题吗?
【问题讨论】:
标签: java hadoop mapreduce input-split
我是否能够将整个 input split 放入映射器,而不是将每一行输入拆分成映射器。
为此,我需要实现自己的自定义输入格式。
但如果我写的是WholeFileInputFormat
这是否意味着映射器获得整行或整个输入拆分?
NLineInputFormat 能解决我的问题吗?
【问题讨论】:
标签: java hadoop mapreduce input-split
我不会打扰NLineInputFormat。您可能并不总是知道 N 是什么,并且您不需要读取每个文件的输入格式的开销来查找行字节偏移量。
来自here 的WholeFileInputFormat (我假设您引用的内容)会将整个文件作为值传递给map 方法。
【讨论】: