【问题标题】:R: Split column with different row information into multiple columnsR:将具有不同行信息的列拆分为多列
【发布时间】:2020-09-14 15:42:34
【问题描述】:

我有一个包含以下数千行的 .gtf 文件:

sequence1   A   transcript  21056   21562   1000    -   .   gene_id "STRG.3"; transcript_id "DABLNBNP_00019"; ref_gene_name "C_1"; cov "6.923077"; FPKM "28.676970"; TPM "100.721863";
sequence1   A   transcript  22861   23949   1000    +   .   gene_id "STRG.12"; transcript_id "DABLNBNP_00021"; cov "0.456382"; FPKM "1.890439"; TPM "6.639771";
sequence1   B   transcript  23990   24547   .   +   .   transcript_id "DABLNBNP_00011"; ref_gene_name "AB"; cov "0.0"; FPKM "0.000000"; TPM "0.000000";
sequence1   B   transcript  25725   26642   .   +   .   transcript_id "DABLNBNP_00012"; ref_gene_name "BC"; cov "0.0"; FPKM "0.000000"; TPM "0.000000";

最后一列包含用分号分隔的信息。如何将最后一列拆分为单独的列(gene_id、transcript_id、ref_gene_name、cov、FPKM、TPM)。并非所有行都包含有关“gene_id”或“ref_gene_name”的信息。如果我只是用 R (tidyr) 中的单独函数划分列,则列将被移动:

# Load packages
library(tidyr)

# Make data frame
a = c("sequence1", "sequence1", "sequence1", "sequence1")
b = c("A", "A", "B", "B")
c = c("transcript", "transcript", "transcript", "transcript")
d = c(21056, 22861, 23990, 25725)
e = c(21562, 23949, 24547, 26642)
f = c(1000, 1000, ".", ".")
g = c("-", "+", "+", "+")
h = c(".", ".", ".", ".")
i = c("gene_id STRG.3; transcript_id DABLNBNP_00019; ref_gene_name C_1; cov 6.923077; FPKM 28.676970; TPM 100.721863;", "gene_id STRG.12; transcript_id DABLNBNP_00021; cov 0.456382; FPKM 1.890439; TPM 6.639771;", "transcript_id DABLNBNP_00011; ref_gene_name AB; cov 0.0; FPKM 0.000000; TPM 0.000000;", "transcript_id DABLNBNP_00012; ref_gene_name BC; cov 0.0; FPKM 0.000000'; TPM 0.000000;")

dataset <- data.frame(cbind(a,b,c,d,e,f,g,h,i))

# Split last column
dataset_split <- separate(dataset, i, into = c("Gene_id", "transcript_id", 
                                               "ref_gene_name", "cov", 
                                               "FPKM", "TPM"), sep=";")

有人知道如何解决这个问题吗?

非常感谢!

【问题讨论】:

    标签: r data-cleaning


    【解决方案1】:

    试试这个tidyverse 方法。您可以为每行创建一个 id,然后使用separate_rows(),之后您将使用separate()。代码如下:

    library(tidyverse)
    #Code
    #Isolate last column
    last <- dataset[,'i',drop=F]
    #Pipe and merge
    dataset2 <- dataset %>% mutate(id=1:n()) %>%
      left_join(
        last %>% mutate(id=1:n()) %>%
          separate_rows(i,sep = ';') %>%
          group_by(id) %>%
          mutate(id2=1:n(),i=trimws(i)) %>%
          separate(i,into = c('v1','v2'),sep = ' ') %>% ungroup() %>%
          filter(!is.na(v2)) %>% 
          select(-id2) %>%
          pivot_wider(names_from = v1,values_from=v2))
    

    输出太大,所以我将展示left_join() 内部的外观:

    # A tibble: 4 x 7
         id gene_id transcript_id  ref_gene_name cov      FPKM      TPM       
      <int> <chr>   <chr>          <chr>         <chr>    <chr>     <chr>     
    1     1 STRG.3  DABLNBNP_00019 C_1           6.923077 28.676970 100.721863
    2     2 STRG.12 DABLNBNP_00021 NA            0.456382 1.890439  6.639771  
    3     3 NA      DABLNBNP_00011 AB            0.0      0.000000  0.000000  
    4     4 NA      DABLNBNP_00012 BC            0.0      0.000000' 0.000000 
    

    【讨论】:

    • 这是一个非常优雅的解决方案!我以前从未在 R 中使用过 left_join 和 pivot_wider 函数。非常感谢。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-03-24
    • 2014-07-28
    • 2015-09-23
    • 1970-01-01
    • 2020-09-16
    • 2020-02-21
    • 1970-01-01
    相关资源
    最近更新 更多