【问题标题】:Separate contents of field分隔字段内容
【发布时间】:2019-04-17 23:43:58
【问题描述】:

我确定这很简单,我认为这是使用分离和聚集的情况。

我在数据框中有一个字段,作者列表,已编辑的 pubmed 搜索导出。它包含出版物的作者。显然,它可以包含单个作者或作者的合作。

例如,这只是可用选项的选择:

Author
Drijgers RL, Verhey FR, Leentjens AF, Kahler S, Aalten P.

我想做的是创建一个所有作者的列表,这样我就有了类似的东西

Author
Drijgers RL
Verhey FR
Leentjens AF
Kahler S
Aalten P

我该怎么做? 我以为会是这样的

authSpread<-authorlist%>%separate(Author,sep =",",extra ="drop")

但它不起作用。 如果我输入 =“NA” 我只在一个专栏中列出了第一作者。 我想做的是将文本复制到excel中的列函数,您可以在其中指定要拆分的字符,并将单元格的内容投射/传播到新单元格。然后将它们重新收集到一列中。 我不知道作者的最大数量,因此不知道以编程方式分割的列数(或如何标记它们)。

编辑:澄清 我不知道我是否想制作一个长宽的数据框然后收集 - 因为我不知道会生成多少个字段。这是明智之举吗? 我想我可以将“,”分开的输出写入一个列表,然后将该列表的内容写入单个数据框。 这听起来更有效率吗?

【问题讨论】:

    标签: r lapply tidyverse tidyr sapply


    【解决方案1】:

    您正在寻找separate_rows

    输入:

    df <- data.frame(authors = c("Drijgers RL, Verhey FR, Leentjens AF, Köhler S, Aalten P."))
    
                                                         authors
    1 Drijgers RL, Verhey FR, Leentjens AF, Köhler S, Aalten P.
    

    功能:

    library(tidyverse)
    
    df %>% separate_rows(authors, sep = ", ")
    

    输出:

           authors
    1  Drijgers RL
    2    Verhey FR
    3 Leentjens AF
    4    Köhler S
    5    Aalten P.
    

    您可以将它们保存在这样的列表中:

    authors_list <- df %>% separate_rows(authors, sep = ", ") %>% pull(authors)
    

    输出:

    [1] "Drijgers RL"  "Verhey FR"    "Leentjens AF" "Köhler S"    "Aalten P."   
    

    如果您的列表中有多篇文章的作者,并且您只想要唯一的出现,只需在末尾添加 unique()

    authors_list <- df %>% separate_rows(authors, sep = ", ") %>% pull(authors) %>% unique()
    

    【讨论】:

    • 感谢您提供出色的解决方案。我可以在 excel 中简单地做到这一点:分出第一作者,分出最后一位作者。然后计算作者作为第一作者或最后作者出现的次数。如何在 R 中复制它?我可以从上面的单独行答案中计算作者发表出版物的总次数。 (很抱歉挤了一个额外的问题)
    • 最后的附加问题(我希望)。我将如何将第一作者和最后作者分开以分隔列。将来知道这可能很有用。在这个答案stackoverflow.com/questions/46717210/… 中,列数是已知的。 “用逗号分割这个字符串,然后根据作者列表中的姓名数量将它们放入未知数量的列中”怎么说?
    • @damo,不客气,如果有帮助,请考虑接受答案。我认为最好将你的第二个问题变成另一个问题,因为内容不同。
    • 好的。会做。再次感谢。
    猜你喜欢
    • 1970-01-01
    • 2021-04-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-08-02
    • 2021-04-08
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多