【发布时间】:2019-11-25 19:56:39
【问题描述】:
我需要根据“UCSC_RefGene_Name”和“UCSC_RefGene_Group”列上的值重新组织一个巨大的数据框,同时维护“ID”列中的每个值。可以使用 reshape2 或 dplyr 包来实现吗?
df <- data.frame(ID=c('cg00035864','cg00050873', 'cg00061679', 'cg00063477', 'cg00121626', 'cg00212031'),
UCSC_RefGene_Name=c('TTTY18', 'TSPY4;FAM197Y2', 'DAZ1;DAZ4;DAZ5', 'EIF1AY', 'BCORL2', 'TTTY14'),
UCSC_RefGene_Group = c('TSS1500','Body;TSS1500','Body;Body;Body', 'Body', 'Body', 'TSS200'))
> df
ID UCSC_RefGene_Name UCSC_RefGene_Group
cg00035864 TTTY18 TSS1500
cg00050873 TSPY4;FAM197Y2 Body;TSS1500
cg00061679 DAZ1;DAZ4;DAZ4 Body;Body;Body
cg00063477 EIF1AY Body
cg00121626 BCORL2 Body
cg00212031 TTTY14 TSS200
有些单元格包含多个由“;”分隔的元素符号,所以我需要创建新行来容纳这些元素。我的新 DF 将是:
new_df <- data.frame(ID=c('cg00035864','cg00050873', 'cg00050873','cg00061679', 'cg00061679','cg00061679','cg00063477', 'cg00121626', 'cg00212031'),
UCSC_RefGene_Name=c('TTTY18', 'TSPY4','FAM197Y2', 'DAZ1','DAZ4','DAZ5', 'EIF1AY', 'BCORL2', 'TTTY14'),
UCSC_RefGene_Group = c('TSS1500','Body','TSS1500','Body','Body','Body', 'Body', 'Body', 'TSS200'))
> new_df
ID UCSC_RefGene_Name UCSC_RefGene_Group
cg00035864 TTTY18 TSS1500
cg00050873 TSPY4 Body
cg00050873 FAM197Y2 TSS1500
cg00061679 DAZ1 Body
cg00061679 DAZ4 Body
cg00061679 DAZ5 Body
cg00063477 EIF1AY Body
cg00121626 BCORL2 Body
cg00212031 TTTY14 TSS200
【问题讨论】: