【发布时间】:2018-12-15 11:58:06
【问题描述】:
在 Pandas df 中,我试图在多个列中删除重复项。每行的大量数据是NaN。
这只是一个例子,数据参差不齐,因此存在许多不同的组合。
df.drop_duplicates()
IDnum name formNumber
1 NaN AP GROUP 028-11964
2 1364615.0 AP GROUP NaN
3 NaN AP GROUP NaN
希望的输出:
IDnum name formNumber
1 1364615.0 AP GROUP 028-11964
编辑:
如果df.drop_duplicates() 看起来像这样,它会改变解决方案吗? :
df.drop_duplicates()
IDnum name formNumber
0 NaN AP GROUP 028-11964
1 1364615.0 AP GROUP 028-11964
2 1364615.0 AP GROUP NaN
3 NaN AP GROUP NaN
【问题讨论】:
-
我猜这是
float('nan') != float('nan')(或任何 Pandas 等价物用于非浮点 NaN)的一个症状,因为 NaN 值不等于任何东西,包括它们自己。跨度>
标签: python pandas dataframe duplicates