使用 awk 在多个字段中基于模式匹配打印行答案

【问题标题】：printing lines based on pattern matching in multiple fields using awk使用 awk 在多个字段中基于模式匹配打印行
【发布时间】：2016-08-06 17:56:46
【问题描述】：

假设我有一个类似的 html 输入

<li>this is a html input line</li>

我想从以<li> 开头并以</li> 结尾的文件中过滤所有此类输入行。现在我的想法是使用下面的 awk 命令在第一个字段中搜索模式 <li> 并在最后一个字段中搜索模式 </li>

awk '$1 ~ /\<li\>/ ; $NF ~ /\</li\>/ {print $0}'

但似乎没有规定一次匹配两个字段，或者我犯了一些语法错误。你能帮帮我吗？

PS：我正在使用 Solaris SunOS 机器。

【问题讨论】：

单个正则表达式就可以了。 awk '/^ *<li>.*<\/li> *$/' - 我想不必要地逃离楔子是你的实际错误。还要注意$0 是print 的默认值，而在没有显式操作的情况下打印是默认值。
适配你的代码，用&&代替;——awk '$1 ~ /\<li\>/ && $NF ~ /\</li\>/ {print $0}'
很好，您提到您正在使用 Solaris，因为这通常会为您需要的答案添加特殊的“Solarisisms”。请务必在您发布的任何未来 Q 中提及这一点。祝你好运。

标签： bash unix awk

【解决方案1】：

您在 Solaris 上的脚本有很多问题：

awk '$1 ~ /\<li\>/ ; $NF ~ /\</li\>/ {print $0}'

Solaris 上的默认 awk（因此我们必须假设您正在使用的那个，因为您没有另外说明）是旧的、损坏的 awk，绝对不能使用。在 Solaris 上使用 /usr/xpg4/bin/awk。还有nawk，但它的 POSIX 功能较少（例如，不支持字符类）。
\<...\> 是 gawk 特定的字边界。 Solaris 上没有 awk 可以识别这些。如果您只是想获取文字字符，则无需转义它们，因为它们不是正则表达式元字符。
如果您想测试条件 1 和条件 2，请将 && 放在它们之间，而不是 ;，它只是代替换行符的语句终止符。
给定条件为 true 的默认操作是 {print $0}，因此您无需显式编写该代码。
/ 是 awk 正则表达式分隔符，因此您需要在中间正则表达式中转义它。
默认字段分隔符是空格，因此在您发布的示例输入中，$1 和 $NF 将是 <li>this 和 line</li>，而不是 <li> 和 </li>。

因此，如果您出于某种原因确实比较了多个字段，您可以这样做：

awk '($1 ~ /^<li>.*/) && ($NF ~ /.*<\/li>$/)'

但这可能是你真正想要的：

awk '/^<li>.*<\/li>/'

在这种情况下，您可以只使用 grep：

grep '^<li>.*</li>'

【讨论】：

【解决方案2】：

为什么不直接使用正则表达式来匹配行的开头和结尾，比如

awk '/^[[:space:]]*<li>.*<\/li>[[:space:]]*$/ {print}'

虽然一般来说，如果您尝试处理 HTML，您最好使用专为处理该问题而设计的工具。

【讨论】：