【问题标题】:Pyarrow Dataset read specific columns and specific rowsPyarrow 数据集读取特定列和特定行
【发布时间】:2020-01-12 16:22:10
【问题描述】:

有没有办法使用 pyarrow parquet 数据集来读取特定的列,如果可能的话,过滤数据而不是将整个文件读入数据框?

【问题讨论】:

标签: python parquet pyarrow


【解决方案1】:

截至pyarrow==2.0.0,至少pyarrow.parquet.ParquetDataset 是可能的。

读取特定列,它的readread_pandas 方法有一个columns 选项。您也可以使用pandas.read_parquet 来执行此操作。

读取特定行,它的__init__ 方法有一个filters 选项。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-06-08
    • 1970-01-01
    • 2019-04-15
    • 1970-01-01
    • 2023-02-07
    • 2012-07-21
    • 1970-01-01
    • 2023-02-06
    相关资源
    最近更新 更多