【发布时间】:2021-04-28 10:52:22
【问题描述】:
我是 Dask 的新手,
我有 152 个 parquet 文件,平均大小为 200MB。(32GB 机器 RAM)
每个文件都有 Timestamp 列,我想将该列设置为分区(索引)。
如果我将 Timestamp 列设置为索引,则分区太多, 所以我需要将它转换为日期-->
ddf = dd.read_parquet('gs://bucket_name/*.parquet')
ddf['partition'] = dd.to_datetime(ddf['event_time'], format='%Y/%m/%d')
我成功运行了 groupby 等其他操作。
如果我想要带有分区的 parquet 文件以按分区快速查询,处理这种情况的最佳做法是什么?
【问题讨论】:
标签: dask dask-dataframe