【发布时间】:2019-01-20 12:59:11
【问题描述】:
我正在尝试使用 pyarrow 将 parquet 转换为 csv 文件。
df = pd.read_parquet('test.parquet')
上述代码适用于从 github 下载的示例 parquet 文件。
但是当我尝试使用实际的大型镶木地板文件时,会出现以下错误。
File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetReader.read_all
File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: Arrow error: IOError: GZipCodec failed: incorrect header check
我也尝试使用 fastparquet 和 pyspark 读取 parquet 文件。但我遇到了类似的 GZip 错误。
我知道这是压缩或未压缩的镶木地板文件,与我下载的示例不同。
请建议任何代码或提供任何其他工具来将此类镶木地板文件转换为 csv 文件将有很大帮助。谢谢。
编辑:这些 parquet 文件似乎是二进制格式,而不是 parquet 中通常的字符串值。有没有办法读取二进制拼花?
【问题讨论】:
标签: python-3.x pyspark parquet pyarrow fastparquet