【发布时间】:2014-12-17 01:26:17
【问题描述】:
我正在寻找一个可以合并两个包含表格的文件的脚本。 列是单个样本的细菌计数,而行包含细菌的名称。我不能只对它们进行排序和合并,因为有些细菌只出现在一个文件中,而另一个文件中没有。如果是这种情况,我想用零填充该行。
这是一个例子:
文件 1
Header S1 S2 S3 S4
Acetobacterium submarinus 1350 1000 1541 1541
Abiotrophia defectiva 100 110 112 166
Acetobacterium tundrae 2 1 0 0
文件 2
Header S5 S6 S7 S8
Acholeplasma cavigenitalium 100 90 88 120
Acetobacterium woodii 2 3 4 0
Acetobacterium submarinus 500 600 400 480
生成的文件应该是(按字母顺序排序)
Header S1 S2 S3 S4 S5 S6 S7 S8
Abiotrophia defectiva 100 110 112 166 0 0 0 0
Acetobacterium submarinus 1350 1000 1541 1541 500 600 400 480
Acetobacterium tundrae 2 1 0 0 0 0 0 0
Acetobacterium woodii 0 0 0 0 2 3 4 0
Acholeplasma cavigenitalium 0 0 0 0 100 90 88 120
有什么想法吗?
我知道粘贴功能可以按第一列合并文件,但我不确定如何处理丢失的物种。
更新 这是两个示例数据集。列号和原始数据集中的一样,我只是缩短了行数。
https://www.dropbox.com/s/h46nwjwwfdyzwqr/Class_Level_Aggregate_Counts-1.csv?dl=0 https://www.dropbox.com/s/x8wtdxl45bej729/Class_Level_Aggregate_Counts-2.csv?dl=0
【问题讨论】: