【问题标题】:Multiple/divide columns in bashbash中的多个/除列
【发布时间】:2025-11-29 07:35:01
【问题描述】:

我有一个如下所示的数据框:

ERR843978.19884 13 51 51
ERR843978.2880 10 49 51
ERR843978.10002 7 48 55
ERR843978.1158 8 45 54
ERR843978.4671 14 62 60
ERR843978.83 15 56 70
ERR843978.9406 8 56 39
ERR843978.8383 12 59 43
ERR843978.8916 6 51 42

我希望对所有行都这样做:

column2/(column3*column4)

然后在新文件中打印输出。

我已经编写了一个 bash 脚本,但它有点慢,所以我正在寻找一个更有效的解决方案(也许使用 awk?)。

这是我的代码

while read line
do
        out0=$(awk '{print $1}' <<< $line)
        out1=$(awk '{print $2}' <<< $line)
        out2=$(awk '{print $3}' <<< $line)
        out3=$(awk '{print $4}' <<< $line)
        out4=`echo "scale=5; ($out1 / ($out2 * $out3))"|bc -l`
        echo "$out0;$out4"
done < $file

【问题讨论】:

  • 如果第三列和第四列为零怎么办?编辑以显示所需的内容
  • 顺便说一句:没有 awk 和 bc:使用 div functionwhile read -r c2 c2 c3 c4; do div $c2 $((c3*c4)); done &lt; file
  • 请参阅unix.stackexchange.com/questions/169716/…,了解您的脚本为何如此缓慢,以及为什么在处理文本时通常要避免 shell 循环。

标签: bash shell unix dataframe awk


【解决方案1】:

是的,awk在这里非常有效:

awk '{ print $2/($3 * $4) }' file > newfile

【讨论】:

  • 您应该以某种方式合并($3!=0 &amp;&amp; $4 !=0),即使 OP 没有说明可能有值 0 以更安全
  • 我的数据框中没有任何 0,但我测试了他的解决方案,并且 0 不会使命令崩溃,您只需将“inf”作为输出,所以我没问题
  • 你会如何合并这个@Inian?
  • @Stenemo:我会做awk '$3 !=0 || $4 !=0 { print $2/($3 * $4) }'
【解决方案2】:

如果您使用read 拆分行(如@Cyrus 建议的那样,但没有div

while read -r column1 column2 column3 column4
do
    echo "bc: $column1;$( echo "scale=5; ($column2 / ($column3 * $column4))"|bc )"
done < $file

会快一点。在我的机器上 6 秒/1000 行与 1.7 秒/1000 行。

sedbcpaste 的组合

{
  echo "scale=5;"
  sed -re 's/(.*) ([0-9]+) ([0-9]+) ([0-9]+)/\2 \/ ( \3 * \4 )/' $file
} | bc > $$.tmp
cut -d ' ' -f 1 $file | paste - $$.tmp

它已在 1.1 秒/100000 行内完成。这是一个约 150 倍的系数,并解释了为什么 while 循环的名声不好。

使用允许浮点运算的 ksh93 可以达到相似的数字。

typeset -F5 column2 column3 column4
while read -r column1 column2 column3 column4
do
    printf "printf %s;%.5f\n" "$column1 " "$(( column2 / (column3 * column4) ))"
done < $file

0.9 秒/100,000 行。这表明,它不是循环本身,而是在循环中使用外部命令bc

是的,awk 仍然快 8 倍,1.4 秒/1,000,000 行

【讨论】:

    最近更新 更多