【发布时间】:2018-04-21 05:10:21
【问题描述】:
我正在尝试在 pandas 数据框中查找重复行。
df=pd.DataFrame(data=[[1,2],[3,4],[1,2],[1,4],[1,2]],columns=['col1','col2'])
df
Out[15]:
col1 col2
0 1 2
1 3 4
2 1 2
3 1 4
4 1 2
duplicate_bool = df.duplicated(subset=['col1','col2'], keep='first')
duplicate = df.loc[duplicate_bool == True]
duplicate
Out[16]:
col1 col2
2 1 2
4 1 2
有没有办法添加引用第一个副本(保留的那个)的索引的列
duplicate
Out[16]:
col1 col2 index_original
2 1 2 0
4 1 2 0
注意:在我的情况下,df 可能非常大....
【问题讨论】:
-
如果有 3 个重复项怎么办?
-
好点!我编辑了问题
-
您能否为不同的重复项添加输出而不是仅一个。
-
@gabboshow 如果答案有帮助,将不胜感激您的投票和接受。谢谢。
-
如果我有 90 列怎么办?
标签: python pandas dataframe duplicates