【发布时间】:2021-10-24 23:38:39
【问题描述】:
我正在开发一个正在编写 parquet 文件的应用程序。 出于测试目的,我正在尝试使用 pd.read_parquet 读取生成的文件。 我收到一个非常奇怪的错误,要求提供架构:
self =
这发生在以下行:
data = pd.read_parquet(file)
其中 file 是从根目录到文件的路径。首先,我不应该提供一个模式,因为我们在这里谈论的是镶木地板,我不确定是什么导致了这个问题。也许是可读性条款?
当我将生成的文件导入我的 pycharm Parquet 插件时,它看起来不错
{“ID”:12345,“限制”:200,“产品”:818} {“ID”:67890,“限制”:3000,“产品”:819} 所以输入数据应该不是问题。
注意:对 fastparquet 进行了同样的尝试并得到了同样的错误(因为 pd.read_parquer 是基于它的,所以很有意义。
【问题讨论】:
-
这听起来很可能是环境问题。你是如何安装熊猫的?您是否尝试使用 pyarrow 作为读取拼花引擎?您使用的是什么版本的库?
-
通过在需求部分导入它,使用pandas==1.1.5。我尝试使用 pyarrow,但我认为我遇到了一些问题,说读取 0 字节文件或文件不是空的......也使用 fastparquet==0.7.1
-
您是否能够使用任何库(例如 java 库)或通过命令行工具读取文件?听起来可能文件格式不正确?
-
不,我还没有,我同意,我想到了权限问题,但看起来不像是因为如果它查找架构,它仍然要输入文件信息
标签: pandas unit-testing parquet fastparquet