我想知道如何提取重复信息

【问题标题】：I will like to know how to pull out the duplicate information我想知道如何提取重复信息
【发布时间】：2015-06-29 16:30:38
【问题描述】：

所以我是熊猫 python 的新手。目前，我的任务是确定“id”列中哪些 ID 是重复的。例如，如果 ID 413 出现超过 1 次，则视为重复。由于有超过 600,000 个 ID，我需要知道它的代码。请帮忙！

【问题讨论】：

标签： csv pandas ipython-notebook

【解决方案1】：

您可以使用 duplicated 返回一个布尔系列来屏蔽 df，然后调用 unique 返回一个重复 ID 的数组：

In [196]:

df = pd.DataFrame({'ID':[0,1,1,3,4,5,6,6,6,]})
df
Out[196]:
   ID
0   0
1   1
2   1
3   3
4   4
5   5
6   6
7   6
8   6
In [201]:

df[df['ID'].duplicated()]['ID'].unique()
Out[201]:
array([1, 6], dtype=int64)

【讨论】：

@user3814631 不用担心，如果这回答了你的问题，我的其他回答也回答了，请接受，我的回答左上角会有一个空的勾号，干杯