【发布时间】:2017-01-07 16:33:21
【问题描述】:
我的 HDFS 系统中有一个文件夹,其中包含使用 Snappy 编解码器压缩的文本文件。
通常,在 Hadoop Streaming 作业中读取 GZIP 压缩文件时,会自动进行解压缩。但是,在使用 Snappy 压缩数据时不会发生这种情况,并且我无法处理数据。
如何读取这些文件并在 Hadoop Streaming 中处理它们?
非常感谢。
更新:
如果我使用命令hadoop fs -text file 它可以工作。该问题仅在使用 hadoop 流时发生,数据在传递给我的 python 脚本之前未解压缩。
【问题讨论】:
标签: hadoop hdfs hadoop-streaming compression snappy