【发布时间】:2017-09-25 15:28:07
【问题描述】:
假设我有一个这样的 DataFrame:
date id val
0 2017-01-01 1 10
1 2019-01-01 1 20
2 2017-01-01 2 50
我想按id 对这个数据集进行分组。
对于每个组,我想添加一个新行,日期是从现在开始的 1 年。仅当该行晚于组中的最后一个日期时才应添加此行。该行的 val 应该与组中的最后一行相同。
决赛桌应该是这样的:
date id val
0 2017-01-01 1 10
1 2019-01-01 1 20
2 2017-01-01 2 50
3 2018-09-25 2 50 <-- new row
当前代码如下。我可以得到一个掩码,显示哪些组需要附加一行,但不确定下一步该做什么。
>>> df = pd.DataFrame(data={'d': [datetime.date(2017, 1, 1), datetime.date(2019,1,1), datetime.date(2017,1,1)], 'id': [1,1,2], 'val': [10,20,50]})
>>> df = df.sort_values(by='d')
>>> future_date = (pd.datetime.now().date() + pd.DateOffset(years=1)).date()
>>> maxd = df.groupby('id')['d'].max()
>>> maxd < future_date
id
1 False
2 True
Name: d, dtype: bool
【问题讨论】:
标签: python pandas pandas-groupby