【问题标题】:sort and uniquize a tab separated file for two columns [closed]对两列的制表符分隔文件进行排序和唯一化[关闭]
【发布时间】:2017-09-30 08:57:33
【问题描述】:

我有一个非常大的制表符分隔文件,其中一部分如下所示:

33  x   171 297 126
4   x   171 300 129
2   x   171 303 132
11  y   163 289 126
5   y   163 290 127
3   y   163 291 128
2   y   163 292 129
2   y   170 289 119
2   z   166 307 141
2   z   166 308 142
6   z   166 309 143
4   z   166 329 163
2   z   166 330 164

我想根据第一列中与其关联的最大值(在 unix 中)对每个行进行排序并选择一行:x、y、z

【问题讨论】:

  • 你尝试了什么?
  • 所以你会期待33 x ...11 y ...6 z ....
  • 试试这个:perl -lanE '($v,$k)=@F[0..1];$h{$k}=$_,$j{$k}=$v if $j{$k}<$v;END{say for values %h}' file
  • 请显示您用作插图的输入的预期输出。
  • 使用 Linux sort 工具按第 2 列和第 1 列降序排序。这将为您提供一个列表,其中包含所有 x 以及顶部的最高数字、所有 y 以及顶部的最高数字等。然后uniq --skip-fields=1 将占据每个组的第一行,为您提供所需的输出。

标签: linux perl sorting unix uniq


【解决方案1】:

您可以使用awk

awk '
{
  key = $2;
  flag = 0;
  if (key in value) { max = value[key] ; flag = 1 };
  if (flag == 0 || max < $1) { value[key] = $1; line[key] = $0 };
}
END {
  for (key in line) { print line[key] };
}
' data.tsv

【讨论】:

  • 你不需要标志和最大值。删除第一个块中的第 2 行和第 3 行,并将第 4 行中的 if 更改为 if ( value[key] &lt; $1)
  • @ULick 如果第一列包含负数,您的版本可能无法正常工作(默认值为 0 和“”)。
  • 是的。可以通过if ( ! (key in value) || $1 &gt; value[key] )解决。仍然没有标志,但失去了可读性。
  • 完美运行 \nperl -lanE '($v,$k)=@F[0..1];$h{$k}=$_,$j{$k}= $v if $j{$k}
猜你喜欢
  • 2010-11-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-08-24
  • 2013-06-30
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多