【发布时间】:2016-01-30 04:21:10
【问题描述】:
我正在尝试检查重复项。
我用df['name_duplicated'] = df.duplicated('name', keep=False)
但是,这会将 name = NaN 的任何行视为重复。
有谁知道如何解决这个问题?
我正在尝试df[pd.isnull(df['name'])]['name_duplicated'] = False,但出现错误。
【问题讨论】:
-
为什么不先删除它们呢?
df['name_duplicated'] = df['name'].dropna().duplicated()? -
@EdChum 我还不想删除它们,因为我还在另一列上进行过滤。只有当这是 False 并且另一列是 True 时,我才会想要删除它们
-
其实默认行为是
NaN产生False这不是你想要的吗?df['name_duplicated'] = df[df['Name'].duplicated()]? -
这就是我想要的,但很奇怪,出于某种原因,我的
NaNs 正在生成True -
他们真的是
NaN吗?df[df['Name'].isnull()]显示什么?
标签: python python-2.7 pandas duplicates