【发布时间】:2021-08-01 23:08:17
【问题描述】:
我正在编写循环多列数据填充并执行集成 AWK 代码以对多列数据进行操作的 bash 脚本。
#!/bin/bash
home="$PWD"
# folder with the outputs
rescore="${home}"/rescore
# folder with the folders to analyse
storage="${home}"/results
while read -r d; do
awk -F ", *" ' # set field separator to comma, followed by 0 or more whitespaces
FNR==1 {
if (n) { # calculate the results of previous file
f= # apply this equation to rescore data using values of $3 and $2
f[suffix] = f # store the results in the array
n=$1 # take ID of the column
}
prefix=suffix=FILENAME
sub(/_.*/, "", prefix)
sub(/\/[^\/]+$/, "", suffix)
sub(/^.*_/, "", suffix)
n = 1 # count of samples
min = 0 # lowest value of $3 (assuming all $3 < 0)
}
FNR > 1 {
s += $3
s2 += $3 * $3
++n
if ($3 < min) min = $3 # update the lowest value
}
print "ID" prefix, rescoring
for (i in n)
printf "%s %.2f\n", i, f[i]
}' "${d}_"*/input.csv > "${rescore}/"${d%%_*}".csv"
done < <(find . -maxdepth 1 -type d -name '*_*_*' | awk -F '[_/]' '!seen[$2]++ {print $2}')
简而言之,工作流应该处理位于 ${d} 文件夹中的 input.csv 的每一行,这些行已被我的 bash 脚本正确识别:
# input.csv located in the folder 10V1_cne_lig12
ID, POP, dG
1, 142, -5.6500 # this is dG(min)
2, 10, -5.5000
3, 2, -4.9500
4, 150, -4.1200
我的 AWK 脚本预计会处理每个 CSV 文件的每一行,以便将它们减少到两列,并保留在输出中:i) input.csv 第一列中的数字(包含已处理的 ID line) + 包含 CSV 文件的文件夹名称 ($d) 以及 ii) 应用于 input.csv 的 POP 和 dG 列中的数字的数学运算 (f) 的结果:
f(ID)= sqrt(((dG(ID)+10)/10)^2+((POP(ID)-240)/240))^2)
其中 dG(ID) 是 input.csv 的“重新评分”行的 dG ($3) 的值,POP(ID) 是其 POP 值 ($2)。最终 output.csv 包含有关 1 个输入的信息。 csv 应采用以下格式:
# output.csv
ID, rescore value
1 10V1_cne_lig12, f(ID1)
2 10V1_cne_lig12, f(ID2)
3 10V1_cne_lig12, f(ID3)
4 10V1_cne_lig12, f(ID4)
虽然我的代码的 bash 部分(处理不同目录中的 CSV 循环)正常工作,但我仍然坚持使用 AWK 代码,它没有正确分配行的 ID,以便我可以应用演示的数学运算使用具有精确 ID 的行的 $2 和 $3 列。
【问题讨论】:
-
“10V1_cne_lig12”从何而来?
-
所有文件夹(包含 input.csv)都位于 $storage 中,它已在 bash 部分中定义(并且它工作正常!)从字面上看,我们在 bash 中循环 $storage 中的许多文件夹(每个每个都包含一个三列 input.csv 文件),然后为每个 csv.file 应用 AWK 代码
-
我们不知道您的数据。我们只看到您在此处发布的内容。您打算在哪里提取该字符串?是不是文件名,现有字段之一,需要从其他字段中派生出来,常量?
-
实际上应该直接提取并在第一列的 ID 附近提及的文件夹的名称(包含 csv)...但为简单起见,您可能只写一个 AWK 部分的示例,仅关注关于数学方程,因为它可能只应用于一个 csv 文件来处理它的第二列和第三列......非常感谢提前!