【发布时间】:2020-01-12 16:22:10
【问题描述】:
有没有办法使用 pyarrow parquet 数据集来读取特定的列,如果可能的话,过滤数据而不是将整个文件读入数据框?
【问题讨论】:
-
是的,阅读特定列,这是 Parquet 格式的优势之一。通常,使用
pd.read_parquet(),您可以使用列 arg 指定列。据我所知,您无法在加载时进行过滤。 -
您还可以在读取时过滤数据集,但目前仅适用于分区数据集(嵌套目录中的多个文件一致,请参阅文档 arrow.apache.org/docs/python/generated/… 中的
filter参数)。在单个文件中也进行过滤(请参阅issues.apache.org/jira/browse/ARROW-1796)