【问题标题】:Unable to read a parquet file无法读取镶木地板文件
【发布时间】:2019-08-04 10:57:50
【问题描述】:

我现在正在为这件事头疼。我是这个 parquet 文件的新手,我遇到了很多问题。

每次我尝试从中创建df 时,都会抛出一个错误,显示为OSError: Passed non-file path: \datasets\proj\train\train.parquet

我试过这个: pq.read_pandas(r'E:\datasets\proj\train\train.parquet').to_pandas()od = pd.read_parquet(r'E:\datasets\proj\train\train.parquet', engine='pyarrow')

我还更改了数据集所在驱动器的驱动器号,它是一样的!

所有引擎都一样。

请帮忙!

【问题讨论】:

  • 你在哪个操作系统上?
  • Window 2019 服务器。
  • 你试过import os; os.path.exists(x) 其中 x 是您要加载的文件?
  • 没有。我没试过。让我这样做。我不在电脑自动取款机前,所以需要一段时间才能完成。

标签: python pandas parquet pyarrow fastparquet


【解决方案1】:

这可能是 Arrow 文件路径处理的问题。你可以传入一个已经打开的文件:

import pandas as pd

with open(r'E:\datasets\proj\train\train.parquet', 'rb') as f:
    df = pd.read_parquet(f, engine='pyarrow')

【讨论】:

  • 确实如此。我有同样的问题,你的解决方案解决了它。
【解决方案2】:

尝试使用 fastparquet 作为引擎,对我有用。

engine = "fastparquet"

【讨论】:

    猜你喜欢
    • 2021-11-10
    • 1970-01-01
    • 2022-06-16
    • 2019-09-23
    • 2020-08-15
    • 2017-12-27
    • 2017-05-06
    • 2021-01-12
    • 2018-08-13
    相关资源
    最近更新 更多