【发布时间】:2019-06-09 15:19:43
【问题描述】:
我正在通过以下方式从 Spark DataFrame 编写镶木地板文件:
df.write.parquet("path/myfile.parquet", mode = "overwrite", compression="gzip")
这将创建一个包含多个文件的文件夹。
当我尝试将其读入 pandas 时,我收到以下错误,具体取决于我使用的解析器:
import pandas as pd
df = pd.read_parquet("path/myfile.parquet", engine="pyarrow")
PyArrow:
文件“pyarrow\error.pxi”,第 83 行,在 pyarrow.lib.check_status 中
ArrowIOError:镶木地板文件无效。损坏的页脚。
快速镶木地板:
文件“C:\Program Files\Anaconda3\lib\site-packages\fastparquet\util.py”,第 38 行,在 default_open 返回打开(f,模式)
PermissionError: [Errno 13] Permission denied: 'path/myfile.parquet'
我正在使用以下版本:
- Spark 2.4.0
- 熊猫 0.23.4
- pyarrow 0.10.0
- fastparquet 0.2.1
我尝试了 gzip 以及 snappy 压缩。两者都不起作用。我当然确保我将文件放在 Python 有权读取/写入的位置。
如果有人能够重现此错误,那已经很有帮助了。
【问题讨论】:
标签: python pandas apache-spark pyspark parquet