【发布时间】:2015-08-27 20:32:35
【问题描述】:
我有两个包含遗传 SNP 数据的大型数据表(或将拥有它们,我仍然需要将它们转换为相同的格式)。
这些是巨大的表,所以我对它们所做的任何事情都必须在集群上进行。
两个表都有 >100,000 行,其中包含不同但重叠的 SNP 的数据。每列都是一个人(一个表有超过 900 个样本,一个有 >80 个)。一旦另一个表格的格式正确,两个表格都将如下所示
dbSNP_RSID Sample1 Sample2 Sample3 Sample4 Sample5
rs1000001 CC CC CC CC TC
rs1000002 TC TT CC TT TT
rs1000003 TG TG TT TG TG
我想制作一个包含 >1000 列的大表,并且两个表中都表示 >100,000 行的交集。 R 似乎是一种很好的语言。有人对如何做到这一点有任何建议吗?谢谢!
【问题讨论】:
-
我的意思是“交叉点”。如果您想将两张表并排放在一张更大的表中,请使用
cbind(table1, table2)。行数必须完全相同。它看起来像一个数据框,但在 R 语言中它将被视为matrix。取决于你接下来要做什么,这可能就是你所需要的。 -
行的顺序是否相同,还是必须匹配?
-
这两个答案都可以解决。
merge(table1, table2, by='dbSNP_RSID')确保将by参数放在引号中,我总是忘记这一点。
标签: r