【问题标题】:Paragraph processing for HadoopHadoop的段落处理
【发布时间】:2012-09-02 01:34:48
【问题描述】:

是否可以将文本段落传递给 Mapper 类而不是逐行传递。我正在寻找一个 ParagraphRecordReader 实现。

【问题讨论】:

标签: hadoop


【解决方案1】:

https://stackoverflow.com/a/5398215/1660002 的答案可以满足这一要求。但是,您也可以简单地将配置参数textinputformat.record.delimiter 设置为双换行符字符串(例如:"\n\n")来解决此问题。

Apache Hadoop 0.23.x 和 2.x 版本以及 Cloudera 的 CDH3 和 CDH4 版本(如果您使用这些版本)中提供了此可配置功能。

【讨论】:

    猜你喜欢
    • 2019-04-08
    • 2016-03-30
    • 1970-01-01
    • 2011-02-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多