【问题标题】:Replace last value(s) of group with NaN用 NaN 替换组的最后一个值
【发布时间】:2020-09-15 20:21:47
【问题描述】:

我的目标是用 NaN 替换每个 id 的最后一个值(或最后几个值)。我的真实数据集非常大,并且有不同大小的组。

例子:

import pandas as pd

ids = [1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,3]
year = [2000,2001,2002,2003,2004,2005,1990,1991,1992,1993,1994,1995,2010,2011,2012,2013,2014,2015]
percent = [120,70,37,40,50,110,140,100,90,5,52,80,60,40,70,60,50,110]

dictex ={"id":ids,"year":year,"percent [%]": percent}
dfex = pd.DataFrame(dictex)
print(dfex)

           id               year           percent [%]
0           1               2000                  120
1           1               2001                   70
2           1               2002                   37
3           1               2003                   40
4           1               2004                   50
5           1               2005                  110
6           2               1990                  140
7           2               1991                  100
8           2               1992                   90
9           2               1993                    5
10          2               1994                   52
11          2               1995                   80
12          3               2010                   60
13          3               2011                   40
14          3               2012                   70
15          3               2013                   60
16          3               2014                   50
17          3               2015                  110

我的目标是用 NaN 替换每个 id(组)的“百分比 [%]”列的最后 1 / 或 2 / 或 3 个值。

结果应如下所示:(此处:替换每个 id 的最后 2 个值)

           id               year           percent [%]
0           1               2000                  120
1           1               2001                   70
2           1               2002                   37
3           1               2003                   40
4           1               2004                  NaN
5           1               2005                  NaN
6           2               1990                  140
7           2               1991                  100
8           2               1992                   90
9           2               1993                    5
10          2               1994                  NaN
11          2               1995                  NaN
12          3               2010                   60
13          3               2011                   40
14          3               2012                   70
15          3               2013                   60
16          3               2014                  NaN
17          3               2015                  NaN

我知道应该有一个相对简单的解决方案,但我是 python 新手,根本无法找到一个优雅的方法。 感谢您的帮助!

【问题讨论】:

    标签: python pandas nan


    【解决方案1】:

    尝试使用groupbytailindex 查找将要修改的行的索引,并使用loc 更改值

    nrows = 2
    idx = df.groupby('id').tail(nrows).index
    df.loc[idx, 'percent [%]'] = np.nan
    
    #output
        id  year    percent [%]
    0   1   2000    120.0
    1   1   2001    70.0
    2   1   2002    37.0
    3   1   2003    40.0
    4   1   2004    NaN
    5   1   2005    NaN
    6   2   1990    140.0
    7   2   1991    100.0
    8   2   1992    90.0
    9   2   1993    5.0
    10  2   1994    NaN
    11  2   1995    NaN
    12  3   2010    60.0
    13  3   2011    40.0
    14  3   2012    70.0
    15  3   2013    60.0
    16  3   2014    NaN
    17  3   2015    NaN
    

    【讨论】:

    • 不错的答案。定义 idx 时不必放置切片 ['percent [%]'] 只是为了让它更整洁
    猜你喜欢
    • 2017-08-14
    • 2013-06-18
    • 1970-01-01
    • 2017-08-25
    • 2020-11-26
    • 2015-10-26
    • 2012-03-21
    • 2012-06-13
    • 1970-01-01
    相关资源
    最近更新 更多