【发布时间】:2014-12-05 05:00:37
【问题描述】:
我浏览了cloudera blog,得到了一篇文章(链接如下)。参考第三点。
根据我的理解,如果有2个输入分割,那么虚线将被第一个输入分割的记录读取器读取。
如果我理解正确,你能告诉我它是如何做到的,即第一个拆分的记录读取器如何读取输入拆分后的虚线?
【问题讨论】:
标签: hadoop
我浏览了cloudera blog,得到了一篇文章(链接如下)。参考第三点。
根据我的理解,如果有2个输入分割,那么虚线将被第一个输入分割的记录读取器读取。
如果我理解正确,你能告诉我它是如何做到的,即第一个拆分的记录读取器如何读取输入拆分后的虚线?
【问题讨论】:
标签: hadoop
根据我的理解,如果有2个输入分割,那么虚线将被第一个输入分割的记录读取器读取。
是的,这是正确的。
你能告诉我它是如何做到的,即第一个拆分的记录读取器如何读取输入拆分后的虚线
InputSplit 不包含原始数据,而是提取数据所需的信息。 FileInputSplit (这就是您所指的)包含文件的路径以及要在文件中读取的字节偏移量。然后由RecordReader 出去读取该数据。这意味着它可以读取拆分定义的结束字节偏移量。
【讨论】: