用 NaN 替换组的最后一个值答案

【问题标题】：Replace last value(s) of group with NaN用 NaN 替换组的最后一个值
【发布时间】：2020-09-15 20:21:47
【问题描述】：

我的目标是用 NaN 替换每个 id 的最后一个值（或最后几个值）。我的真实数据集非常大，并且有不同大小的组。

例子：

import pandas as pd

ids = [1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,3]
year = [2000,2001,2002,2003,2004,2005,1990,1991,1992,1993,1994,1995,2010,2011,2012,2013,2014,2015]
percent = [120,70,37,40,50,110,140,100,90,5,52,80,60,40,70,60,50,110]

dictex ={"id":ids,"year":year,"percent [%]": percent}
dfex = pd.DataFrame(dictex)
print(dfex)

           id               year           percent [%]
0           1               2000                  120
1           1               2001                   70
2           1               2002                   37
3           1               2003                   40
4           1               2004                   50
5           1               2005                  110
6           2               1990                  140
7           2               1991                  100
8           2               1992                   90
9           2               1993                    5
10          2               1994                   52
11          2               1995                   80
12          3               2010                   60
13          3               2011                   40
14          3               2012                   70
15          3               2013                   60
16          3               2014                   50
17          3               2015                  110

我的目标是用 NaN 替换每个 id（组）的“百分比 [%]”列的最后 1 / 或 2 / 或 3 个值。

结果应如下所示：（此处：替换每个 id 的最后 2 个值）

           id               year           percent [%]
0           1               2000                  120
1           1               2001                   70
2           1               2002                   37
3           1               2003                   40
4           1               2004                  NaN
5           1               2005                  NaN
6           2               1990                  140
7           2               1991                  100
8           2               1992                   90
9           2               1993                    5
10          2               1994                  NaN
11          2               1995                  NaN
12          3               2010                   60
13          3               2011                   40
14          3               2012                   70
15          3               2013                   60
16          3               2014                  NaN
17          3               2015                  NaN

我知道应该有一个相对简单的解决方案，但我是 python 新手，根本无法找到一个优雅的方法。感谢您的帮助！

【问题讨论】：

标签： python pandas nan

【解决方案1】：

尝试使用groupby、tail 和index 查找将要修改的行的索引，并使用loc 更改值

nrows = 2
idx = df.groupby('id').tail(nrows).index
df.loc[idx, 'percent [%]'] = np.nan

#output
    id  year    percent [%]
0   1   2000    120.0
1   1   2001    70.0
2   1   2002    37.0
3   1   2003    40.0
4   1   2004    NaN
5   1   2005    NaN
6   2   1990    140.0
7   2   1991    100.0
8   2   1992    90.0
9   2   1993    5.0
10  2   1994    NaN
11  2   1995    NaN
12  3   2010    60.0
13  3   2011    40.0
14  3   2012    70.0
15  3   2013    60.0
16  3   2014    NaN
17  3   2015    NaN

【讨论】：

不错的答案。定义 idx 时不必放置切片 ['percent [%]'] 只是为了让它更整洁