【发布时间】:2020-09-22 19:21:32
【问题描述】:
我正在使用 Rstudio 来识别数据框中的重复帐户。 我想找到一种方法来识别某些列中的任何重复项,但我遇到了 NA 的问题。 在下面的行中,如果这 2 行具有相同的 first、last、dob 和性别,我希望将它们视为匹配,但鉴于我的性别为 NA,鉴于我创建了 is_duplicate 标志,这两行不是重复的基于连接的匹配列。
任何想法如何调整?
Id -- First -- Last -- DOB -- Gender -- Match -- Is_duplicates
123 -- Ali -- Smith -- 1993 -- 女 -- AliSmith1993Female -- 0
435 -- 阿里 -- 史密斯 -- 1993 -- NA -- AliSmith1993NA -- 0
【问题讨论】:
标签: r duplicates na matching