【问题标题】:Unix - Compile a single column from many files into a single, tab-delimited fileUnix - 将许多文件中的单个列编译为单个制表符分隔的文件
【发布时间】:2015-05-03 03:31:52
【问题描述】:

我有大量相同的制表符分隔格式的文件:

Column A    Column B
Data_A1      Data_B1
Data_A2      Data_B2
Data_A3      Data_B3

这些文件都有相同的行数。

我想将每个文件的 B 列数据编译成一个制表符分隔的文件。现在,我最好的计划是按照以下思路编写 Perl 脚本:

#!/usr/bin/perl

my $file = shift @ARGV;
my $ref = shift @ARGV;
open ( FILE, $file ); # FILE WITH FORMAT DESCRIBED ABOVE
while (<FILE>) {
        chomp;
        my @a = split("\t", $_);
        push(@B, $a[1]);
}
close FILE;

my $counter = 0;
open (REF, $ref); # TAB-DELIMITED COMPILATION OF EVERY FILE'S COLUMN B
while (<REF>) {
        chomp;
        print "$_\t$B[$counter]\n";
}
close REF;

然后,编写一个循环遍历所有文件的 BASH 脚本,并将 Perl 脚本的输出保存为 shell 循环下一次迭代的输入:

#!/bin/bash

for file in *.txt 
     do 
          perl Script.pl $file Infile > Temp
          mv Temp Infile
     done

但是对于如此简单的事情来说,这感觉像是一项巨大的工作。有没有一个简单的 Unix 命令可以做同样的事情?

预期输出:

File1_Column_B    File2_Column_B    File3_Column_B    ...
Data_B1           Data_B1           Data_B1           ...
Data_B2           Data_B2           Data_B2           ...
Data_B3           Data_B3           Data_B3           ...
...

【问题讨论】:

  • 现有文件是否用制表符分隔?
  • 所有文件的行数都一样吗?

标签: bash perl shell unix


【解决方案1】:

重击:

paste -d'\t' input*.txt | 
awk -F'\t' '{for (i=2; i<=NF; i+=2) printf "%s%s", $i, FS; print ""}'

这会将所有文件和所有列粘贴在一起,然后使用 awk 仅提取偶数列。

【讨论】:

    【解决方案2】:

    您可以在 Perl 中完成所有工作:

    #!/usr/bin/perl
    use warnings;
    use strict;
    
    my ($result, @input) = @ARGV;        # output input1 input2...
    
    my @table;
    
    for my $i (0 .. $#input) {
        my $infile = $input[$i];
        open my $IN, '<', $infile or die "$infile: $!";
        while (<$IN>) {
            $table[ $. - 1 ][$i] = (split)[1];
        }
    }
    
    open my $OUT, '>', $result or die "$result: $!";
    for my $row (@table) {
        print {$OUT} join("\t", @$row), "\n";
    }
    close $OUT;
    

    【讨论】:

    • 我将如何运行这个脚本? "perl 脚本 *.txt" ?
    • @Slavatron:如评论中所示:perl script.pl output *.txt
    【解决方案3】:

    您可以使用awk 选择您想要的列,并使用paste 将它们粘贴在一起。

    例子:

    paste -d '\t' <(awk '{print $2}' file1.tsv) <(awk '{print $3}' file2.tsv) 
    

    注意: &lt;(command) 允许将命令的输出用作文件。

    【讨论】:

    • 我认为当你想解释某事时使用PS 没有多大意义。这不是您发送后忘记的东西,而是有价值的信息。
    • NOTE 是否让它变得更好?对不起这里的非母语人士:)
    • 这里的重点是您正在添加有价值的信息,通过说“PS”或“NOTE”看起来它不那么重要。我不是指出要使用什么的人(也不是母语人士:)),但像“解释”这样的东西对我来说看起来更好:)
    • OP 说他有“大量”文件,因此必须为每个文件单独编写进程替换似乎很残忍。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-07-19
    • 2017-05-13
    • 2019-01-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多