【发布时间】:2022-01-04 20:46:24
【问题描述】:
我有一个 dask 数据框,其日期列 doc_date 在 12-1-2021 到 1-2-2022 的范围内。我想将此 dask 数据帧重新分区并拆分为 26 个分区,以便每个分区在上述日期范围内只有 1 个日期。
这是我尝试过的:
doc_dates = [dt.strftime("%Y-%m-%d") for dt in pd.date_range('2021-12-08', '2022-01-02')]
predictions_df = predictions_df.set_index('doc_date')
predictions_df = predictions_df.repartition(divisions=sorted(doc_dates))
但我似乎遇到了这个错误:
ValueError: left side of old and new divisions are different
【问题讨论】:
-
@alirezafnatica 这个问题四年前就解决了,不太可能?
标签: python dataframe dask dask-distributed dask-dataframe