【发布时间】:2015-06-29 16:30:38
【问题描述】:
所以我是熊猫 python 的新手。目前,我的任务是确定“id”列中哪些 ID 是重复的。例如,如果 ID 413 出现超过 1 次,则视为重复。由于有超过 600,000 个 ID,我需要知道它的代码。请帮忙!
【问题讨论】:
标签: csv pandas ipython-notebook
所以我是熊猫 python 的新手。目前,我的任务是确定“id”列中哪些 ID 是重复的。例如,如果 ID 413 出现超过 1 次,则视为重复。由于有超过 600,000 个 ID,我需要知道它的代码。请帮忙!
【问题讨论】:
标签: csv pandas ipython-notebook
您可以使用 duplicated 返回一个布尔系列来屏蔽 df,然后调用 unique 返回一个重复 ID 的数组:
In [196]:
df = pd.DataFrame({'ID':[0,1,1,3,4,5,6,6,6,]})
df
Out[196]:
ID
0 0
1 1
2 1
3 3
4 4
5 5
6 6
7 6
8 6
In [201]:
df[df['ID'].duplicated()]['ID'].unique()
Out[201]:
array([1, 6], dtype=int64)
【讨论】: