【发布时间】:2021-12-06 16:10:30
【问题描述】:
我有一个相当简单的问题,我似乎找不到任何解决方案。我在网上查看了许多类似的问题,但他们的解决方案不适用于我的情况。
我有一个如下格式的熊猫数据集
CountryCode ConfirmedCases ConfirmedDeaths date
335 ABW 4872.0 45.0 2020-12-01
336 ABW 4902.0 45.0 2020-12-02
337 ABW 4923.0 45.0 2020-12-03
338 ABW 4942.0 45.0 2020-12-04
339 ABW 4957.0 45.0 2020-12-05
ConfirmedCases 和 ConfirmedDeaths 都是按 CountryCode 衡量的累积总和,但我需要 CountryCode 的每日病例和每日死亡人数。这要求我计算我的数据集中每个国家在时间 t 和时间 t-1 的确诊病例之间的差异——即同一国家今天和前一天的病例数之差。理想情况下,我想要一个解决方案,允许我将国家/地区的每日病例数和每日死亡人数登记为数据集中的两个新变量。因此,我想要如下所示的内容:
CountryCode ConfirmedCases ConfirmedDeaths date DailyCases Daily Deaths
335 ABW 4872.0 45.0 2020-12-01 15 0
336 ABW 4902.0 45.0 2020-12-02 30 0
337 ABW 4923.0 45.0 2020-12-03 21 0
338 ABW 4942.0 45.0 2020-12-04 19 0
339 ABW 4957.0 45.0 2020-12-05 15 0
提前感谢您的帮助!
【问题讨论】:
-
df.groupby('CountryCode').diff()...
标签: python python-3.x pandas sum