【发布时间】:2015-05-03 03:31:52
【问题描述】:
我有大量相同的制表符分隔格式的文件:
Column A Column B
Data_A1 Data_B1
Data_A2 Data_B2
Data_A3 Data_B3
这些文件都有相同的行数。
我想将每个文件的 B 列数据编译成一个制表符分隔的文件。现在,我最好的计划是按照以下思路编写 Perl 脚本:
#!/usr/bin/perl
my $file = shift @ARGV;
my $ref = shift @ARGV;
open ( FILE, $file ); # FILE WITH FORMAT DESCRIBED ABOVE
while (<FILE>) {
chomp;
my @a = split("\t", $_);
push(@B, $a[1]);
}
close FILE;
my $counter = 0;
open (REF, $ref); # TAB-DELIMITED COMPILATION OF EVERY FILE'S COLUMN B
while (<REF>) {
chomp;
print "$_\t$B[$counter]\n";
}
close REF;
然后,编写一个循环遍历所有文件的 BASH 脚本,并将 Perl 脚本的输出保存为 shell 循环下一次迭代的输入:
#!/bin/bash
for file in *.txt
do
perl Script.pl $file Infile > Temp
mv Temp Infile
done
但是对于如此简单的事情来说,这感觉像是一项巨大的工作。有没有一个简单的 Unix 命令可以做同样的事情?
预期输出:
File1_Column_B File2_Column_B File3_Column_B ...
Data_B1 Data_B1 Data_B1 ...
Data_B2 Data_B2 Data_B2 ...
Data_B3 Data_B3 Data_B3 ...
...
【问题讨论】:
-
现有文件是否用制表符分隔?
-
所有文件的行数都一样吗?