【发布时间】:2014-07-29 19:48:24
【问题描述】:
我有一个这样的数据文件,其中前两列是人类和大鼠中对应的基因名称(基本上相同的名称,不同的大小写)
Human Rat RNAtype Exp Organ
BBS1 Bbs1 reg 7 Lung
ASAP2 Asap2 reg 5 Heart
ASAP2 Asap2 CANONICAL 5 Heart
ASAP2 Asap2 reg 6 Heart
ASAP2 Asap2 reg 8 Lung
ASAP3 Asap3 SCRAMBLED 5 Heart
ASAP3 Asap3 scram 8 Heart
ASAP3 Asap3 CANONICAL 5 Heart
ASAP3 Asap3 reg 5 Heart
现在我想通过以下方式制作它的子集。如果一个基因同时存在于肺和心脏中,那么我将把它包含在我的子集中。例如,第一行中的基因 BBS1 仅存在于肺中,而不存在于心脏中,因此它不会出现在子集中。但 ASAP2 存在于心脏和肺中。所以,它会在子集中。 ASAP3 不会在子集中,因为它不存在于肺中。
现在实际的数据文件相当大。而且基因很多,第一列/第二列中基因名称的顺序不像这里那样排序,可以是ASAP2,ASAP3,ASAP3,BBS1,ASAP2,ASAP2。
【问题讨论】: