【发布时间】:2020-04-23 05:17:05
【问题描述】:
对于从 spark 写入的 parquet 文件(没有任何分区),其目录如下所示:
%ls foo.parquet
part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
_SUCCESS
当尝试通过 pandas 阅读时:
pd.read_parquet('foo.parquet')
一切正常。
但是,当使用 dask 时它会失败:
dd.read_parquet('foo.parquet')
[Errno 17] File exists: 'foo.parquet/_SUCCESS'
我需要进行哪些更改才能使 dask 能够成功读取数据?
【问题讨论】:
-
我相信它也可以与 fastparquet 一起使用更长的
dd.read_parquet('foo.parquet/*parquet')。
标签: apache-spark dask parquet dask-distributed