【问题标题】:TypeError in read_parquet Daskread_parquet Dask 中的 TypeError
【发布时间】:2021-01-28 07:07:00
【问题描述】:

我有一个名为data.parquet 的镶木地板文件。我正在使用 Python 中的库 dask。当我跑线时

import dask.dataframe as dd
df = dd.read_parquet('data.parquet',engine='pyarrow')

我得到了错误

TypeError                                 Traceback (most recent call last)
<ipython-input-22-807fa43763c1> in <module>
----> 1 df = dd.read_parquet('data.parquet',engine='pyarrow')

~/anaconda3/lib/python3.7/site-packages/dask/dataframe/io/parquet.py in read_parquet(path, columns, filters, categories, index, storage_options, engine, infer_divisions)
   1395         categories=categories,
   1396         index=index,
-> 1397         infer_divisions=infer_divisions,
   1398     )
   1399 

~/anaconda3/lib/python3.7/site-packages/dask/dataframe/io/parquet.py in _read_pyarrow(fs, fs_token, paths, columns, filters, categories, index, infer_divisions)
    858     _open = lambda fn: pq.ParquetFile(fs.open(fn, mode="rb"))
    859     for piece in dataset.pieces:
--> 860         pf = piece.get_metadata(_open)
    861         # non_empty_pieces.append(piece)
    862         if pf.num_row_groups > 0:

TypeError: get_metadata() takes 1 positional argument but 2 were given

我只是不明白为什么会发生这种情况,因为这就是它的实现方式here

任何帮助将不胜感激!

【问题讨论】:

  • 您使用的是哪个版本的 pyarrow 和 dask?请更新到最新版本。

标签: python pandas dask parquet


【解决方案1】:

我遇到了同样的问题。我通过升级版本解决了 dask 2.30.0

【讨论】:

    猜你喜欢
    • 2018-11-03
    • 2020-01-25
    • 2018-11-25
    • 2020-02-25
    • 1970-01-01
    • 1970-01-01
    • 2018-12-17
    • 2018-04-04
    • 1970-01-01
    相关资源
    最近更新 更多