【发布时间】:2015-10-01 16:26:08
【问题描述】:
我有一个 cronjob,它每 5 分钟从 Internet 上的服务器下载 zip 文件(200 字节到 1MB)。如果我将 zip 文件按原样导入 HDFS,我会遇到臭名昭著的 Hadoop 小文件大小问题。为了避免在 HDFS 中堆积小文件,处理 zip 文件中的文本数据并将它们转换为 avro 文件,并等待每 6 小时将我的 avro 文件添加到 HDFS 中。使用这种方法,我设法将 avro 文件导入到 HDFS 中,文件大小大于 64MB。文件大小范围从 50MB 到 400MB。我担心的是,如果我开始构建开始进入 500KB avro 文件大小范围或更大的文件大小会发生什么。这会导致 Hadoop 出现问题吗?其他人如何处理这种情况?
【问题讨论】: