基于具有列表值的多列删除数据框中的重复行[重复]答案

【问题标题】：Drop duplicate rows in dataframe based on multplie columns with list values [duplicate]基于具有列表值的多列删除数据框中的重复行[重复]
【发布时间】：2021-04-28 22:03:50
【问题描述】：

我有包含多列的 DataFrame，而少数列包含列表值。通过只考虑其中包含列表值的列，必须删除重复的行。

当前数据框：

ID    col1            col2            col3            col4
1     52         [kjd,pkh,sws]    [aqs,zxc,asd]   [plm,okn,ijb]
2     47         [qaz,wsx,edc]    [aws,rfc,tgb]   [rty,wer,dfg]
3     85         [kjd,pkh,sws]    [aqs,zxc,asd]   [plm,okn,ijb]
4     27         [asw,bxs,mdh]    [wka,kdy,kaw]   [pqm,lsc,yhb]

期望的输出：

ID    col1            col2            col3            col4
2     47         [qaz,wsx,edc]    [aws,rfc,tgb]   [rty,wer,dfg]
4     27         [asw,bxs,mdh]    [wka,kdy,kaw]   [pqm,lsc,yhb]

我尝试将其转换为元组并应用 df.drop_duplicates() 但出现多个错误

【问题讨论】：

不，我已经试过了。由于我在列值中有 List 它会产生错误
drop_duplicates 适用于您为我提供的示例。如果您仍然遇到问题，只需编辑您的帖子，详细了解您在drop_duplicates 遇到的问题。
我认为作为答案提到的帖子不是这个问题的真正答案，而这篇帖子是答案：stackoverflow.com/a/52949875/7206701
重复列表中的元素顺序会改变吗？
@HooriM。这个答案将单列转换为元组，但我的问题有三列包含列表值

标签： python pandas list dataframe drop-duplicates

【解决方案1】：

您可以将每个带有列表的列转换为 str，然后删除重复项。

第 1 步：将包含列表的每一列转换为字符串类型 astype(str)。
第 2 步：使用drop_duplicates 将列作为字符串。自从你要删除所有重复项，请设置keep=False。
第 3 步：删除临时创建的 astype(str) 列，因为您不再需要它们。

完整的代码是：

c = ['col1','col2','col3','col4']
d =[[52,['kjd','pkh','sws'],['aqs','zxc','asd'],['plm','okn','ijb']],
    [47,['qaz','wsx','edc'],['aws','rfc','tgb'],['rty','wer','dfg']],
    [85,['kjd','pkh','sws'],['aqs','zxc','asd'],['plm','okn','ijb']],
    [27,['asw','bxs','mdh'],['wka','kdy','kaw'],['pqm','lsc','yhb']]]

import pandas as pd
df = pd.DataFrame(d,columns=c)
print(df)

df['col2s'] = df['col2'].astype(str)
df['col3s'] = df['col3'].astype(str)
df['col4s'] = df['col4'].astype(str)

df.drop_duplicates(subset=['col2s', 'col3s','col4s'],keep=False,inplace=True)
df.drop(['col2s', 'col3s','col4s'],axis=1,inplace=True)
print (df)

这个输出将是：

原始数据框：

   col1             col2             col3             col4
0    52  [kjd, pkh, sws]  [aqs, zxc, asd]  [plm, okn, ijb]
1    47  [qaz, wsx, edc]  [aws, rfc, tgb]  [rty, wer, dfg]
2    85  [kjd, pkh, sws]  [aqs, zxc, asd]  [plm, okn, ijb]
3    27  [asw, bxs, mdh]  [wka, kdy, kaw]  [pqm, lsc, yhb]

删除重复项后的DataFrame：

   col1             col2             col3             col4
1    47  [qaz, wsx, edc]  [aws, rfc, tgb]  [rty, wer, dfg]
3    27  [asw, bxs, mdh]  [wka, kdy, kaw]  [pqm, lsc, yhb]

【讨论】：