【发布时间】:2012-11-15 16:59:05
【问题描述】:
我的测试框架中有 81,000 条记录,duplicated 显示 2039 是相同的匹配项。对Find duplicated rows (based on 2 columns) in Data Frame in R 的一个回答提出了一种创建仅包含重复记录的较小框架的方法。这也适用于我:
dup <- data.frame(as.numeric(duplicated(df$var))) #creates df with binary var for duplicated rows
colnames(dup) <- c("dup") #renames column for simplicity
df2 <- cbind(df, dup) #bind to original df
df3 <- subset(df2, dup == 1) #subsets df using binary var for duplicated`
但正如海报所指出的那样,它似乎不优雅。有没有更简洁的方法来获得相同的结果:只查看那些重复的记录?
在我的情况下,我正在处理抓取的数据,我需要弄清楚原始数据中是否存在重复项,或者是由我抓取的数据引入的。
【问题讨论】:
标签: r duplicates