删除R中书目数据集中的所有重复实例答案

【问题标题】：Remove all instances of duplicates in bibliographic dataset in R删除R中书目数据集中的所有重复实例
【发布时间】：2019-12-04 12:04:14
【问题描述】：

我有两个书目数据集 A 和 B（.bib 文件、WoS 导出、完整记录和引用的参考文献）。它们都包含相关和不相关的结果。第一个数据集 A 已被清理，因此我将相关结果 A(r) 和不相关结果 A(i) 作为两个不同的数据集（.bib 文件）。第二个数据集 B 完全包含我的第一个数据集 A。 visualisation of my two datasets

目标： 我正在寻找一种方法来从我的第二个数据集 B 中删除我已经在我的第一个数据集中识别的不相关结果 A(i)。

方法：如果我要合并数据集 B 和 A(i)，我可以使用 remove duplicate function 来追踪 B 中不相关的结果 A(i)，因为 A(i) 会在 B 中出现两次。但是，这只会删除 A(i) 的重复项，而不是 A(i) 的所有实例。

删除重复的功能：

软件包 revtools

匹配

data_unique

包 bibliometrix

duplicatedMatching(M, Field = "TI", tol = 0.95)

•Q1：有没有办法删除通过查找/删除重复功能识别的所有重复实例（重复和原始实例）？

•Q2：有没有更好的方法从 B 中删除 A(i)？即删除数据集中所有重复的实例

•Q3：更普遍的问题是：我能否在我的数据集（论文列表）中搜索大量特定的书目数据并将其从该数据集中删除？

非常感谢您的帮助！

【问题讨论】：

标签： r duplicates quanteda bibliography

【解决方案1】：

您可以使用match 在两个数据集中找到相同的title。

#remove Ai from B
B[-match(unique(Ai$title), B$title),]
#  title misc
#1     a    X
#2     b    X
#5     e    X
#7     g    X

#remove Ai and Ar from B
B[-match(unique(c(Ai$title, Ar$title)), B$title),]
#  title misc
#7     g    X

数据：

Ar <- data.frame(title=c("a", "b", "e"), misc="X", stringsAsFactors = FALSE)
Ai <- data.frame(title=c("d", "c", "f"), misc="X", stringsAsFactors = FALSE)
B <- data.frame(title=letters[1:7], misc="X", stringsAsFactors = FALSE)

【讨论】：