使用 pd.read_parquet 读取 parquet 文件以查找模式答案

【问题标题】：Read parquet file using pd.read_parquet looking for a schema使用 pd.read_parquet 读取 parquet 文件以查找模式
【发布时间】：2021-10-24 23:38:39
【问题描述】：

我正在开发一个正在编写 parquet 文件的应用程序。出于测试目的，我正在尝试使用 pd.read_parquet 读取生成的文件。我收到一个非常奇怪的错误，要求提供架构：

self =

这发生在以下行：

data = pd.read_parquet(file)

其中 file 是从根目录到文件的路径。首先，我不应该提供一个模式，因为我们在这里谈论的是镶木地板，我不确定是什么导致了这个问题。也许是可读性条款？

当我将生成的文件导入我的 pycharm Parquet 插件时，它看起来不错

{“ID”：12345，“限制”：200，“产品”：818} {“ID”：67890，“限制”：3000，“产品”：819} 所以输入数据应该不是问题。

注意：对 fastparquet 进行了同样的尝试并得到了同样的错误（因为 pd.read_parquer 是基于它的，所以很有意义。

【问题讨论】：

这听起来很可能是环境问题。你是如何安装熊猫的？您是否尝试使用 pyarrow 作为读取拼花引擎？您使用的是什么版本的库？
通过在需求部分导入它，使用pandas==1.1.5。我尝试使用 pyarrow，但我认为我遇到了一些问题，说读取 0 字节文件或文件不是空的......也使用 fastparquet==0.7.1
您是否能够使用任何库（例如 java 库）或通过命令行工具读取文件？听起来可能文件格式不正确？
不，我还没有，我同意，我想到了权限问题，但看起来不像是因为如果它查找架构，它仍然要输入文件信息

标签： pandas unit-testing parquet fastparquet

【解决方案1】：

当我使用压缩架构时发生了同样的事情

df.to_parquet("sample.parquet",compression="uncompressed")

我将其更改为无。然后它开始工作了。

df.to_parquet("sample.parquet",compression="none")

可能您的案例环境设置不正确。尝试安装其他引擎，例如 fastparquet 或 pyarrow。

【讨论】：