【发布时间】:2018-01-26 12:11:37
【问题描述】:
我有一个像这样结构的巨大文件(数百行,大约 4,000 列)
locus 1 1 1 2 2 3 3 3
exon 1 2 3 1 2 1 2 3
data1 17.07 7.11 10.58 10.21 19.34 14.69 3.32 21.07
data2 21.42 11.46 7.88 9.89 27.24 12.40 0.58 19.82
并且我需要从具有相同基因座编号(即第一行中的相同编号)的所有值(分别在每个数据行上)计算平均值,即
data1:前三个值的平均值(三列的轨迹为“1”: 17.07, 7.11, 10.58),接下来的两个值 (10.21, 19.34) 和接下来的三个值 (14.69, 3.32, 21.07)
我想要这样的输出
data1 mean1 mean2 mean3
data1 mean1 mean2 mean3
我正在考虑使用 bash 和 awk... 谢谢你的建议。
【问题讨论】:
-
bash 用于操作文件和进程,而不是用于文本处理 - 您只需要 awk 即可。 edit 您的问题是在给定输入的情况下显示您想要的确切输出,以及您希望如何调用可以做到这一点的工具。还包括您迄今为止尝试过的内容,即使它只是伪代码。