【问题标题】:Remove all instances of duplicates in bibliographic dataset in R删除R中书目数据集中的所有重复实例
【发布时间】:2019-12-04 12:04:14
【问题描述】:

我有两个书目数据集 A 和 B(.bib 文件、WoS 导出、完整记录和引用的参考文献)。它们都包含相关和不相关的结果。第一个数据集 A 已被清理,因此我将相关结果 A(r) 和不相关结果 A(i) 作为两个不同的数据集(.bib 文件)。第二个数据集 B 完全包含我的第一个数据集 A。 visualisation of my two datasets

目标: 我正在寻找一种方法来从我的第二个数据集 B 中删除我已经在我的第一个数据集中识别的不相关结果 A(i)。

方法: 如果我要合并数据集 B 和 A(i),我可以使用 remove duplicate function 来追踪 B 中不相关的结果 A(i),因为 A(i) 会在 B 中出现两次。但是,这只会删除 A(i) 的重复项,而不是 A(i) 的所有实例。

删除重复的功能:

软件包 revtools

匹配

data_unique

包 bibliometrix

duplicatedMatching(M, Field = "TI", tol = 0.95)

•Q1:有没有办法删除通过查找/删除重复功能识别的所有重复实例(重复和原始实例)?

•Q2:有没有更好的方法从 B 中删除 A(i)?即删除数据集中所有重复的实例

•Q3:更普遍的问题是:我能否在我的数据集(论文列表)中搜索大量特定的书目数据并将其从该数据集中删除?

非常感谢您的帮助!

【问题讨论】:

    标签: r duplicates quanteda bibliography


    【解决方案1】:

    您可以使用match 在两个数据集中找到相同的title

    #remove Ai from B
    B[-match(unique(Ai$title), B$title),]
    #  title misc
    #1     a    X
    #2     b    X
    #5     e    X
    #7     g    X
    
    #remove Ai and Ar from B
    B[-match(unique(c(Ai$title, Ar$title)), B$title),]
    #  title misc
    #7     g    X
    

    数据:

    Ar <- data.frame(title=c("a", "b", "e"), misc="X", stringsAsFactors = FALSE)
    Ai <- data.frame(title=c("d", "c", "f"), misc="X", stringsAsFactors = FALSE)
    B <- data.frame(title=letters[1:7], misc="X", stringsAsFactors = FALSE)
    

    【讨论】:

      猜你喜欢
      • 2021-11-26
      • 2014-10-06
      • 1970-01-01
      • 2021-11-03
      • 2020-02-02
      • 1970-01-01
      • 2019-10-16
      • 2021-01-06
      • 2021-07-18
      相关资源
      最近更新 更多