【发布时间】:2023-03-31 07:10:01
【问题描述】:
我的目录中有很多 txt 制表符分隔的文件,有几行和几列,例如
File1
Id Sample Time ... Variant[Column16] ...
1 s1 t0 c.B481A:p.G861S
2 s2 t2 c.C221C:p.D461W
3 s5 t1 c.G31T:p.G61R
File2
Id Sample Time ... Variant[Column16] ...
1 s1 t0 c.B481A:p.G861S
2 s2 t2 c.C21C:p.D61W
3 s5 t1 c.G1T:p.G1R
我正在寻找的是创建一个新文件:
- 所有不同的变体 uniq
- 重复的变体数量
- 和文件位置
即:
NewFile
Variant Nº of repeated Location
c.B481A:p.G861S 2 File1,File2
c.C221C:p.D461W 1 File1
c.G31T:p.G61R 1 File1
c.C21C:p.D61W 1 File2
c.G1T:p.G1R 1 File2
我认为在 bash 中使用带有 awk sort 和 uniq 的基本脚本会起作用,但我不知道从哪里开始。或者如果使用 Rstudio 或 python(3) 更容易,我可以尝试。
谢谢!!
【问题讨论】:
-
我不确定第 3 列(作为一个简单的衬线,虽然你可以找到一种方法来做到这一点,我敢肯定)这样的事情可能会起作用:stackoverflow.com/questions/25652252/… For 1 and 2 你可以使用:
awk '{print $4 }' file1.txt > combined.txt和awk '{print $4 }' file2.txt >> combined.txt然后sort combined.txt | uniq -c