【问题标题】:I will like to know how to pull out the duplicate information我想知道如何提取重复信息
【发布时间】:2015-06-29 16:30:38
【问题描述】:

所以我是熊猫 python 的新手。目前,我的任务是确定“id”列中哪些 ID 是重复的。例如,如果 ID 413 出现超过 1 次,则视为重复。由于有超过 600,000 个 ID,我需要知道它的代码。请帮忙!

【问题讨论】:

    标签: csv pandas ipython-notebook


    【解决方案1】:

    您可以使用 duplicated 返回一个布尔系列来屏蔽 df,然后调用 unique 返回一个重复 ID 的数组:

    In [196]:
    
    df = pd.DataFrame({'ID':[0,1,1,3,4,5,6,6,6,]})
    df
    Out[196]:
       ID
    0   0
    1   1
    2   1
    3   3
    4   4
    5   5
    6   6
    7   6
    8   6
    In [201]:
    
    df[df['ID'].duplicated()]['ID'].unique()
    Out[201]:
    array([1, 6], dtype=int64)
    

    【讨论】:

    • @user3814631 不用担心,如果这回答了你的问题,我的其他回答也回答了,请接受,我的回答左上角会有一个空的勾号,干杯
    猜你喜欢
    • 2014-07-19
    • 1970-01-01
    • 2015-09-08
    • 1970-01-01
    • 2018-06-13
    • 2019-01-26
    • 1970-01-01
    • 1970-01-01
    • 2022-06-23
    相关资源
    最近更新 更多