【发布时间】:2015-03-31 05:30:24
【问题描述】:
我有一个使用 Python 和患者 ID 号的数据框,每条记录代表不同的预约。在每次预约时,一个特征(dx)被记录为 0 或 1。我想创建一个新特征来总结 dx 特征,但仅限于该患者的那一点。
patient_ID | dx |
29847 0
29847 1
29847 0
29847 1
29847 1
我可以用一个简单的 groupby 语句得到组的总和:
df.groupby(['patient_ID])['dx'].sum()
但我想要将枚举值作为一项新功能,仅考虑当前和以前的记录:
patient_ID | dx | dx_enum
29847 0 0
29847 1 1
29847 0 1
29847 1 2
29847 1 3
我想这将结合使用 for 循环和 groupby 语句,但到目前为止还没有成功。感谢您提供的任何帮助!
【问题讨论】:
-
您是否只是在寻找
cumsum()?