【发布时间】:2019-12-04 12:04:14
【问题描述】:
我有两个书目数据集 A 和 B(.bib 文件、WoS 导出、完整记录和引用的参考文献)。它们都包含相关和不相关的结果。第一个数据集 A 已被清理,因此我将相关结果 A(r) 和不相关结果 A(i) 作为两个不同的数据集(.bib 文件)。第二个数据集 B 完全包含我的第一个数据集 A。 visualisation of my two datasets
目标: 我正在寻找一种方法来从我的第二个数据集 B 中删除我已经在我的第一个数据集中识别的不相关结果 A(i)。
方法: 如果我要合并数据集 B 和 A(i),我可以使用 remove duplicate function 来追踪 B 中不相关的结果 A(i),因为 A(i) 会在 B 中出现两次。但是,这只会删除 A(i) 的重复项,而不是 A(i) 的所有实例。
删除重复的功能:
软件包 revtools
匹配
data_unique
包 bibliometrix
duplicatedMatching(M, Field = "TI", tol = 0.95)
•Q1:有没有办法删除通过查找/删除重复功能识别的所有重复实例(重复和原始实例)?
•Q2:有没有更好的方法从 B 中删除 A(i)?即删除数据集中所有重复的实例
•Q3:更普遍的问题是:我能否在我的数据集(论文列表)中搜索大量特定的书目数据并将其从该数据集中删除?
非常感谢您的帮助!
【问题讨论】:
标签: r duplicates quanteda bibliography