【发布时间】:2021-06-24 18:55:40
【问题描述】:
我有多个数据框,类似于
DF1
Element Category Subcategory Subsystem Role Fcount
E100 Cofactors, Vitamins Biotin synthesis phosphoribosyltransferase domain 1
E100 Cofactors, Vitamins Biotin synthesis Biotin operon repressor 1
E100 Cofactors, Vitamins Biotin synthesis aminotransferase (EC 2.6.1.62) 2
E100 Cofactors, Vitamins Biotin synthesis ligase (EC 6.3.4.15) 1
E100 Cofactors, Vitamins Biotin synthesis synthase (EC 2.3.1.47) 1
E100 Cofactors, Vitamins Pigments Biotin synthase (EC 2.3.1.47) 1
DF2
Element Category Subcategory Subsystem Role Fcount
E200 Cofactors, Vitamins Biotin synthesis phosphoribosyltransferase domain 1
E200 Cofactors, Vitamins Biotin synthesis Biotin operon repressor 1
E200 Cofactors, Vitamins Biotin synthesis aminotransferase (EC 2.6.1.62) 2
E200 Cofactors, Vitamins Biotin synthesis toxin (EC 6.3.4.15) 1
E200 Cofactors, Vitamins Biotin synthesis synthase (EC 2.3.1.47) 1
首先,从 Category 到 Role 列中呈现相同字符串的所有行都将被视为相等;如果在一列或多列中不同,则将其视为不同行!!!!
示例 1,DF1 和 DF2 中的第 1 行
这两行在 Category、Subcategory、Subsystem 和 Role 列中呈现相同的模式:辅因子、维生素 生物素合成磷酸核糖转移酶结构域,所以算是平等的!!!
示例 2
存在于部分而非所有列中的那些(如:Cofactors, Vitamins Biotin synthesis ligase (EC 6.3.4.15) 和 Cofactors, Vitamins Biotin synthesis toxin (EC 6.3.4.15) )) 在那些不存在的地方加零。对于在Subcategory和Subsystem的列中存在差异的DF1的最后一行(Cofactors, Vitamins Pigments Biotin synthase (EC 2.3.1.47)) ,则必须将其添加为不同的行。
Fcount列将改为Element的名称,并从5到N列添加(本例为5到6列)!
最终的数据框会是这样的:
Category Subcategory Subsystem Role E100 E200
Cofactors, Vitamins Biotin synthesis phosphoribosyltransferase domain 1 1
Cofactors, Vitamins Biotin synthesis Biotin operon repressor 1 1
Cofactors, Vitamins Biotin synthesis aminotransferase (EC 2.6.1.62) 2 2
Cofactors, Vitamins Biotin synthesis ligase (EC 6.3.4.15) 1 0
Cofactors, Vitamins Biotin synthesis synthase (EC 2.3.1.47) 1 1
Cofactors, Vitamins Biotin synthesis toxin (EC 6.3.4.15) 0 1
Cofactors, Vitamins Pigments Biotin synthase (EC 2.3.1.47) 1 0
在这种情况下,我只是使用了 2 个数据帧作为示例,但我有超过 20 个。
如何在 R 中做到这一点??
对不起,如果我没有给出任何代码,但我不知道该怎么做!!!
谢谢
【问题讨论】: