【发布时间】:2013-06-11 23:56:36
【问题描述】:
我必须在 HDFS 的 avro 文件中读取序列化的 Avro 记录。为此,我使用了 AvroKeyInputFormat,因此我的映射器能够将读取的记录用作键。
我的问题是,如何控制分割大小?使用文本输入格式,它包含以字节为单位定义大小。在这里我需要定义每个拆分将包含多少条记录。
我想像管理一个大文件一样管理输入目录中的每个文件。我必须使用 CombineFileInputFormat 吗?是否可以与 Avro 一起使用?
【问题讨论】: