【问题标题】:Custom Input format for input split in hadoophadoop中输入拆分的自定义输入格式
【发布时间】:2017-07-12 00:12:29
【问题描述】:

我是否能够将整个 input split 放入映射器,而不是将每一行输入拆分成映射器。

为此,我需要实现自己的自定义输入格式。 但如果我写的是WholeFileInputFormat

这是否意味着映射器获得整行或整个输入拆分?

NLineInputFormat 能解决我的问题吗?

【问题讨论】:

    标签: java hadoop mapreduce input-split


    【解决方案1】:

    我不会打扰NLineInputFormat。您可能并不总是知道 N 是什么,并且您不需要读取每个文件的输入格式的开销来查找行字节偏移量。

    来自hereWholeFileInputFormat (我假设您引用的内容)会将整个文件作为值传递给map 方法。

    【讨论】:

    • 但是无论是完整的输入文件还是输入拆分。如果是完整的输入文件-Hadoop如何在使用WholeInputFormat作为映射获取整个文件内容并且不会进行并行化时管理文件..
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-12-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多