【问题标题】:Compare columns in two text files and match lines比较两个文本文件中的列并匹配行
【发布时间】:2016-03-29 04:12:33
【问题描述】:

我想比较 file1 中的第二列(由空格分隔):

n01443537/n01443537_481.JPEG n01443537
n01629819/n01629819_420.JPEG n01629819
n02883205/n02883205_461.JPEG n02883205

file2 中的第二列(由空格分隔):

val_8447.JPEG n09256479
val_68.JPEG n01443537
val_1054.JPEG n01629819
val_1542.JPEG n02883205
val_8480.JPEG n03089624

如果匹配,我想打印出file2的对应行。

本例中所需的输出:

val_68.JPEG n01443537
val_1054.JPEG n01629819
val_1542.JPEG n02883205

我尝试了以下,但输出文件为空:

awk -F' ' 'NR==FNR{c[$2]++;next};c[$2] > 0' file1.txt file2.txt > file3.txt

也试过这个,但结果是一样的(空输出文件):

awk 'NR==FNR{a[$2];next}$2 in a' file1 file2 > file3.txt

【问题讨论】:

    标签: bash awk text-files text-processing


    【解决方案1】:

    GNU join 就是为此目的而存在的。

    join -o "2.1 2.2" -j 2 <(sort -k 2 file1) <(sort -k 2 file2)

    【讨论】:

    • 酷,没想到使用join。它(还)不起作用,但是,我认为这是由于我的输入文件存在问题。
    • 1.它将产生不按原始顺序 2 的输出数据。对于大文件,排序可能很昂贵
    【解决方案2】:

    使用 awk:

    awk 'FNR==NR{a[$NF]; next} $NF in a' file1 file2
    
    val_68.JPEG n01443537
    val_1054.JPEG n01629819
    val_1542.JPEG n02883205
    

    这是一个带有进程替换的grep 替代方案:

    grep -f <(awk '{print " " $NF "$"}' file1) file2
    

    使用print " " $NF "$" 创建像" n01443537$" 这样的正则表达式,以便我们只匹配grep 中的最后一列。

    【讨论】:

    • 嗯......不幸的是,我的输出仍然是空的。我认为问题可能出在我的源文件中。如何检查列是否实际上由每行中的单个空格分隔?我很确定他们是,但也许我可以确认一下。
    • 您可以在两个文件上运行cat -vte 并检查存在哪些字符(也可能是由于 DOS 行结尾)
    • 我们可能会在这里做一些事情。对于 file1,我得到一个 $ 附加到每一行。对于 file2,我将 ^M$ 附加到每一行。
    • 您可以在file2 上运行dos2unix 来修复^M 或DOS 行结束问题
    • 太棒了,dos2unix 成功了!您的解决方案现在完美运行,非常感谢:)
    猜你喜欢
    • 2020-11-24
    • 1970-01-01
    • 2016-10-23
    • 1970-01-01
    • 2017-07-30
    • 1970-01-01
    • 1970-01-01
    • 2018-10-25
    • 1970-01-01
    相关资源
    最近更新 更多