【发布时间】:2025-11-22 16:40:01
【问题描述】:
我有这个文本数据框,所有列都是字符向量。
Gene.ID barcodes value
A2M TCGA-BA-5149-01A-01D-1512-08 Missense_Mutation
ABCC10 TCGA-BA-5559-01A-01D-1512-08 Missense_Mutation
ABCC11 TCGA-BA-5557-01A-01D-1512-08 Silent
ABCC8 TCGA-BA-5555-01A-01D-1512-08 Missense_Mutation
ABHD5 TCGA-BA-5149-01A-01D-1512-08 Missense_Mutation
ACCN1 TCGA-BA-5149-01A-01D-1512-08 Missense_Mutation
如何使用 reshape/reshape 2 从中构建数据框,以便获得格式为 Gene.ID~barcodes 的数据框,值是每个值列中的文本和“NA”或“WT”填充物?
默认聚合函数一直默认为长度,我想尽可能避免。
【问题讨论】:
-
我并不完全按照你的想法去做,也许是因为我不经常使用 reshape/reshape2。您是否尝试以具有gene.id、barcodes、missense_mutation、silent 等变量的形式获取数据?
-
我正在尝试获取一个数据框,其中包含列中的条形码和行中的gene.ID,其中“值”是每个单元格的值。如果特定基因/条形码组合缺少值,我希望它是“WT”或“NA”。
-
您的“Gene.ID”或“barcodes”列中是否有重复值?
-
是的,阿难。一些基因在不止一个样本中发生突变。但是,iacobus 提出了一个解决方案,这意味着这不是问题。