【发布时间】:2015-02-13 07:44:42
【问题描述】:
我有两张表需要比较
表 1:XLOC ID
Column A: Xloc id
Column B: gene id
表 2:集成 ID
Column A: Ensembl id
Column B: gene Id
在两个表中,有相同的基因 ID(名称,例如 cpa6)。表1有25000个条目,表2有46000个条目。
当 B 列中的两个基因 id 匹配并使用新数据创建输出文件时,我需要将表 2 ColA 中的 Ensemble Id 插入 Table1 的 ColC 中 - 例如
表 1
ENS0002 cpa6
表2:
Xloc0014 cpa6
输出文件,表3:
ENS0002 cpa6 Xloc0014
列的顺序不同,不能按字母顺序排序等。剩下的 21000 个没有相应 Xloc 的条目我会去掉(但可以很容易地完成这个后期输出)。
有谁知道如何在 R、Excel 或其他软件中做到这一点?相对容易?
注意两张表不能按相同的顺序排序,所以我真的需要使用公式/脚本/bash来做到这一点。
【问题讨论】:
-
你好,GeneID 是重复的吗?我的意思是,例如,在表 2 中,所有 GeneID 都是唯一的?
-
见
merge,需要读入文件,然后搜索how to merge data.frames,方法很多。