【发布时间】:2013-08-26 21:07:59
【问题描述】:
我有一个 AVRO 文件(由 JAVA 创建),它似乎是 hadoop/mapreduce 的某种压缩文件,我想将它“解压缩”(反序列化)为一个平面文件。每行每条记录。
我了解到python有一个AVRO package,并且我正确安装了它。并运行示例以读取 AVRO 文件。但是,它出现了以下错误,我想知道阅读最简单的示例会发生什么?谁能帮我解释下面的错误。
>>> reader = DataFileReader(open("/tmp/Stock_20130812104524.avro", "r"), DatumReader())
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/.../python2.7/site-packages/avro/datafile.py", line 240, in __init__
raise DataFileException('Unknown codec: %s.' % self.codec)
avro.datafile.DataFileException: Unknown codec: snappy.
顺便说一句,如果我做文件的“头”,并使用 VI 打开 AVRO 文件的前几行,我可以看到架构定义以及一些蹩脚的奇怪字符 - 可能是压缩内容。 原始 AVRO 文件的起始位如下所示:
bj^A^D^Tavro.codec^Lsnappy^Vavro.schemaØ${"type":"record","name":"Stoc...
我不知道读取 AVRO 文件是否需要这些模式,如下所示:
schema = avro.schema.parse(open("schema").read())
# include schema to do sth...
reader = DataFileReader(open("Stock_20130812104524.avro", "r"), DatumReader())
提前致谢。
【问题讨论】:
-
en.wikipedia.org/wiki/Acronym,Java 和 Avro 不是首字母缩写词
-
@Steve Kuo 您可以使用各种语言创建 AVRO 文件,例如使用 JAVA/Python/EXCEL 创建 CSV 文件。对吗?我并不是说 AVRO 文件是 JAVA 只是为了向读者提供有关文件来源的更多信息.. 不知道这会有所帮助还是误导
-
我只是指出 Java 和 Avro 是单词,而不是首字母缩略词,因此不应该全部大写
标签: java python mapreduce avro