【发布时间】:2012-09-02 01:34:48
【问题描述】:
是否可以将文本段落传递给 Mapper 类而不是逐行传递。我正在寻找一个 ParagraphRecordReader 实现。
【问题讨论】:
-
你的段落有多长?或者你的截止规则是什么?
标签: hadoop
是否可以将文本段落传递给 Mapper 类而不是逐行传递。我正在寻找一个 ParagraphRecordReader 实现。
【问题讨论】:
标签: hadoop
https://stackoverflow.com/a/5398215/1660002 的答案可以满足这一要求。但是,您也可以简单地将配置参数textinputformat.record.delimiter 设置为双换行符字符串(例如:"\n\n")来解决此问题。
Apache Hadoop 0.23.x 和 2.x 版本以及 Cloudera 的 CDH3 和 CDH4 版本(如果您使用这些版本)中提供了此可配置功能。
【讨论】: