R：将具有不同行信息的列拆分为多列答案

【问题标题】：R: Split column with different row information into multiple columnsR：将具有不同行信息的列拆分为多列
【发布时间】：2020-09-14 15:42:34
【问题描述】：

我有一个包含以下数千行的 .gtf 文件：

sequence1   A   transcript  21056   21562   1000    -   .   gene_id "STRG.3"; transcript_id "DABLNBNP_00019"; ref_gene_name "C_1"; cov "6.923077"; FPKM "28.676970"; TPM "100.721863";
sequence1   A   transcript  22861   23949   1000    +   .   gene_id "STRG.12"; transcript_id "DABLNBNP_00021"; cov "0.456382"; FPKM "1.890439"; TPM "6.639771";
sequence1   B   transcript  23990   24547   .   +   .   transcript_id "DABLNBNP_00011"; ref_gene_name "AB"; cov "0.0"; FPKM "0.000000"; TPM "0.000000";
sequence1   B   transcript  25725   26642   .   +   .   transcript_id "DABLNBNP_00012"; ref_gene_name "BC"; cov "0.0"; FPKM "0.000000"; TPM "0.000000";

最后一列包含用分号分隔的信息。如何将最后一列拆分为单独的列（gene_id、transcript_id、ref_gene_name、cov、FPKM、TPM）。并非所有行都包含有关“gene_id”或“ref_gene_name”的信息。如果我只是用 R (tidyr) 中的单独函数划分列，则列将被移动：

# Load packages
library(tidyr)

# Make data frame
a = c("sequence1", "sequence1", "sequence1", "sequence1")
b = c("A", "A", "B", "B")
c = c("transcript", "transcript", "transcript", "transcript")
d = c(21056, 22861, 23990, 25725)
e = c(21562, 23949, 24547, 26642)
f = c(1000, 1000, ".", ".")
g = c("-", "+", "+", "+")
h = c(".", ".", ".", ".")
i = c("gene_id STRG.3; transcript_id DABLNBNP_00019; ref_gene_name C_1; cov 6.923077; FPKM 28.676970; TPM 100.721863;", "gene_id STRG.12; transcript_id DABLNBNP_00021; cov 0.456382; FPKM 1.890439; TPM 6.639771;", "transcript_id DABLNBNP_00011; ref_gene_name AB; cov 0.0; FPKM 0.000000; TPM 0.000000;", "transcript_id DABLNBNP_00012; ref_gene_name BC; cov 0.0; FPKM 0.000000'; TPM 0.000000;")

dataset <- data.frame(cbind(a,b,c,d,e,f,g,h,i))

# Split last column
dataset_split <- separate(dataset, i, into = c("Gene_id", "transcript_id", 
                                               "ref_gene_name", "cov", 
                                               "FPKM", "TPM"), sep=";")

有人知道如何解决这个问题吗？

非常感谢！

【问题讨论】：

标签： r data-cleaning

【解决方案1】：

试试这个tidyverse 方法。您可以为每行创建一个 id，然后使用separate_rows()，之后您将使用separate()。代码如下：

library(tidyverse)
#Code
#Isolate last column
last <- dataset[,'i',drop=F]
#Pipe and merge
dataset2 <- dataset %>% mutate(id=1:n()) %>%
  left_join(
    last %>% mutate(id=1:n()) %>%
      separate_rows(i,sep = ';') %>%
      group_by(id) %>%
      mutate(id2=1:n(),i=trimws(i)) %>%
      separate(i,into = c('v1','v2'),sep = ' ') %>% ungroup() %>%
      filter(!is.na(v2)) %>% 
      select(-id2) %>%
      pivot_wider(names_from = v1,values_from=v2))

输出太大，所以我将展示left_join() 内部的外观：

# A tibble: 4 x 7
     id gene_id transcript_id  ref_gene_name cov      FPKM      TPM       
  <int> <chr>   <chr>          <chr>         <chr>    <chr>     <chr>     
1     1 STRG.3  DABLNBNP_00019 C_1           6.923077 28.676970 100.721863
2     2 STRG.12 DABLNBNP_00021 NA            0.456382 1.890439  6.639771  
3     3 NA      DABLNBNP_00011 AB            0.0      0.000000  0.000000  
4     4 NA      DABLNBNP_00012 BC            0.0      0.000000' 0.000000

【讨论】：

这是一个非常优雅的解决方案！我以前从未在 R 中使用过 left_join 和 pivot_wider 函数。非常感谢。