【问题标题】:Pandas Label Duplicates熊猫标签重复
【发布时间】:2017-01-31 07:28:57
【问题描述】:

给定以下数据框:

import pandas as pd
d=pd.DataFrame({'label':[1,2,2,2,3,4,4],
               'values':[3,5,7,2,5,8,3]})
d
    label   values
0     1       3
1     2       5
2     2       7
3     2       2
4     3       5
5     4       8
6     4       3

我知道如何计算这样的唯一值:

d['dup']=d.groupby('label')['label'].transform('count')

结果:

    label   values  dup
0     1     3       1
1     2     5       3
2     2     7       3
3     2     2       3
4     3     5       1
5     4     8       2
6     4     3       2

但我想要一个具有以下值的列: 1 如果每个标签列有 1 unique 行,2 如果有 duplicates 并且有问题的行是这样的 first,如果行是 duplicate0原件。像这样:

    label   values  dup  status
0     1     3       1     1
1     2     5       3     2
2     2     7       3     0
3     2     2       3     0
4     3     5       1     1
5     4     8       2     2
6     4     3       2     0

提前致谢!

【问题讨论】:

    标签: python-3.x pandas duplicates unique conditional-statements


    【解决方案1】:

    我认为您可以将loc 与由函数duplicated 创建的条件一起使用:

    d['status'] = 2
    d.loc[d.dup == 1, 'status'] = 1
    d.loc[d.label.duplicated(), 'status'] = 0 
    print (d)
    
       label  values  dup  status
    0      1       3    1       1
    1      2       5    3       2
    2      2       7    3       0
    3      2       2    3       0
    4      3       5    1       1
    5      4       8    2       2
    6      4       3    2       0
    

    或者加倍numpy.where:

    d['status1'] = np.where(d.dup == 1, 1,
                   np.where(d.label.duplicated(), 0, 2))
    
    print (d)  
       label  values  dup  status  status1
    0      1       3    1       1        1
    1      2       5    3       2        2
    2      2       7    3       0        0
    3      2       2    3       0        0
    4      3       5    1       1        1
    5      4       8    2       2        2
    6      4       3    2       0        0           
    

    【讨论】:

    • @IanS - 谢谢。 ;)
    • 我觉得和d.label.duplicated()一样,所以只有我把dup改成label
    【解决方案2】:

    另一种选择是将计数列剪裁为 2,然后减去 2 次 duplicated。由于duplicated 使用keep='first' 作为默认值,因此除了第一个重复标签之外的所有标签都将归零。

    d['status'] = d['dup'].clip_upper(2) - 2*d.duplicated(subset='label')
    

    结果输出:

       label  values  dup  status
    0      1       3    1       1
    1      2       5    3       2
    2      2       7    3       0
    3      2       2    3       0
    4      3       5    1       1
    5      4       8    2       2
    6      4       3    2       0
    

    【讨论】:

      猜你喜欢
      • 2019-10-01
      • 2017-09-20
      • 2018-08-06
      • 2021-12-13
      • 2022-10-31
      • 1970-01-01
      • 1970-01-01
      • 2021-12-12
      • 2014-04-27
      相关资源
      最近更新 更多