【问题标题】:Read parquet file using pd.read_parquet looking for a schema使用 pd.read_parquet 读取 parquet 文件以查找模式
【发布时间】:2021-10-24 23:38:39
【问题描述】:

我正在开发一个正在编写 parquet 文件的应用程序。 出于测试目的,我正在尝试使用 pd.read_parquet 读取生成的文件。 我收到一个非常奇怪的错误,要求提供架构:

self =

这发生在以下行:

data = pd.read_parquet(file)

其中 file 是从根目录到文件的路径。首先,我不应该提供一个模式,因为我们在这里谈论的是镶木地板,我不确定是什么导致了这个问题。也许是可读性条款?

当我将生成的文件导入我的 pycharm Parquet 插件时,它看起来不错

{“ID”:12345,“限制”:200,“产品”:818} {“ID”:67890,“限制”:3000,“产品”:819} 所以输入数据应该不是问题。

注意:对 fastparquet 进行了同样的尝试并得到了同样的错误(因为 pd.read_parquer 是基于它的,所以很有意义。

【问题讨论】:

  • 这听起来很可能是环境问题。你是如何安装熊猫的?您是否尝试使用 pyarrow 作为读取拼花引擎?您使用的是什么版本的库?
  • 通过在需求部分导入它,使用pandas==1.1.5。我尝试使用 pyarrow,但我认为我遇到了一些问题,说读取 0 字节文件或文件不是空的......也使用 fastparquet==0.7.1
  • 您是否能够使用任何库(例如 java 库)或通过命令行工具读取文件?听起来可能文件格式不正确?
  • 不,我还没有,我同意,我想到了权限问题,但看起来不像是因为如果它查找架构,它仍然要输入文件信息

标签: pandas unit-testing parquet fastparquet


【解决方案1】:

当我使用压缩架构时发生了同样的事情

df.to_parquet("sample.parquet",compression="uncompressed")

我将其更改为无。然后它开始工作了。

df.to_parquet("sample.parquet",compression="none")

可能您的案例环境设置不正确。 尝试安装其他引擎,例如 fastparquet 或 pyarrow。

【讨论】:

    猜你喜欢
    • 2016-03-16
    • 2018-04-11
    • 1970-01-01
    • 2021-03-07
    • 1970-01-01
    • 2020-09-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多