【问题标题】:Regex in AWK's not accepting lazy selectionAWK 中的正则表达式不接受惰性选择
【发布时间】:2014-01-23 13:49:28
【问题描述】:

我有以下文本文件,我想从中提取“NAME=”和后面的第一个“,”或“)”字符之间的内容。

  AZTBCM         = (CURVE=(NAME=AZTBCM), -SOME TEXT
  B08M           = (CURVE=(NAME=B08M), -  SOME TEXT
  YMOD         = (CURVE=(NAME=YMOD), - SOME TEXT
  ZCCP         = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT

gensub 中的字符范围和惰性选择不像在 nedit 中那样工作。在以下 awk-script 文件中,您可以找到我尝试过的不同行

#! /bin/awk -f
{name=gensub(/.*NAME=(.*?)[,)].*/,"\\1","g",$0); print "line1 "name}        #line1
{name=gensub(/.*NAME=([:alnum:]*?)[,)].*/,"\\1","g",$0); print "line2 "name}    #line2
{name=gensub(/.*NAME=([0-z ]*?)[,)].*/,"\\1","g",$0); "line3 "print name}   #line3
{name=gensub(/.*NAME=([0-z Z]*?)[,)].*/,"\\1","g",$0); "line4 "print name}  #line4
{name=gensub(/.*NAME=([0-Z0-9]*?)[,)].*/,"\\1","g",$0); "line5 "print name} #line5

这会产生以下结果:

line1 AZTBCM)
line2       AZTBCM         = (CURVE=(NAME=AZTBCM), -SOME TEXT
line3       AZTBCM         = (CURVE=(NAME=AZTBCM), -SOME TEXT
line4 AZTBCM
line5 AZTBCM
line1 B08M)
line2       B08M           = (CURVE=(NAME=B08M), -  SOME TEXT
line3 B08M
line4 B08M
line5 B08M
line1 YMOD)
line2       YMOD         = (CURVE=(NAME=YMOD), - SOME TEXT
line3 YMOD
line4 YMOD
line5 YMOD
line1 ZCCP, CURVE TYPE= GAMMA)
line2       ZCCP         = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
line3       ZCCP         = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
line4 ZCCP
line5 ZCCP

第 1 行只返回包含“)”的名称。我的懒惰限定符应该防止这种情况发生。 Nedit 使用相同的选择/替换只给出名称。查看 ZCCP 案例,它甚至似乎继续捕获并包括最后一个括号。

Line2 不返回匹配项,因此返回 $0。也无法在 Nedit 中使用它。(似乎不受支持,没关系)

Line3 应取零以降低 ascii 表的 z。这对我来说是最奇怪的失败。由于我加载了更多行,因此只有在名称中有 Z 时才会失败。甚至在我的字符范围内的终止字符之类的小写字母中也不行。

第 4 行我添加了空格和 Z(实际上不需要空格)以查看字符范围是否由于某些未知原因而错过了它。似乎有一个,因为它现在又可以工作了。 忘记第 5 行 :)

任何人都可以主要阐明这种捕获在第一行的情况下是如何工作的吗?我不明白为什么它会推动第一个括号。其次,为什么我的字符范围不包括“Z”?

干杯,罗伯特

PS 这个问题似乎是两个折叠的。所以我把这篇文章的标题改成了aqtually回答的问题。

【问题讨论】:

  • 注意,这个[:alnum:]是一个字符类,它们需要出现在一个括号表达式中,所以你需要:[[:alnum:]]——没有外括号,你可以匹配:或者alnum
  • 另外,[0-z] 是集合 0,1,2,3,4,5,6,7,8,9,:,;,,?,@, A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y, Z,[,\,],^,_,`,a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r, s,t,u,v,w,x,y,z -- 你想匹配所有这些吗?
  • * 是重复前一个 RE 段 0 次或更多次的 RE 元字符。 ? 是重复前一个 RE 段 0 或 1 次的 RE 元字符。因此,当您写 *? 时,我什至不确定这对 awk 意味着什么,但几乎可以肯定它不是您认为应该是什么意思。我认为问题在于您正在尝试使用某种不是 POSIX 定义的 ERE 的 RE 语言,这是 awk 所理解的。请参阅@devnull 的答案,了解如何在 awk 中做您想做的事情。
  • (.*?)[,)] 将捕获任何字符,直到它看到它的第一个 , 或 )。它将贪婪捕获(它将捕获所有直到最后一个,)在线)变成惰性捕获,其中所有被捕获,直到在线上的第一次出现。所以 (.*?)[,)] 将捕获:" ZCCP = (CURVE=(NAME=ZCCP," 而不是" ZCCP = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA)"。事实上它不是做我认为应该做的事或 Nedit 正在做的事。
  • @RobbertKoppenol - 在 ERE(awk 使用的)中没有你所说的 lazy capturing 这样的东西。也许这就是 Perl REs 中的东西?

标签: regex awk


【解决方案1】:

您可能使用了否定字符类,而不是尝试使用惰性量词。说:

awk '{name=gensub(/.*NAME=([^,)]*).*/,"\\1","g",$0); print "line1 "name}' filename

将为您的输入生成以下内容:

line1 AZTBCM
line1 B08M
line1 YMOD
line1 ZCCP

【讨论】:

  • 我实际上已经按照第 4 行让它工作了。我的问题是关于为什么它对 awk 第 1 行和第 3 行不起作用。我只是找不到任何逻辑。
  • Ed 的评论回答了这个问题。
【解决方案2】:

鉴于此评论: My question is more academic as to why it does not work for awk lines 1 and 3. I just can't find any logic to it.

以下是这些行中使用的 RE 的含义:

.*NAME=(.*?)[,)].*

从行首到 NAME= 后跟任何重复 0 次或更多次的字符,然后重复 0 次或更多次(是的,这没有意义),然后是 a 或 ),然后是重复 0 次或更多次的任何字符。因此,() 内的部分将从NAME= 之后的字符匹配到最后一个,) 之前的字符。

.*NAME=([0-z ]*?)[,)].*

从行首到 NAME= 后跟从 0z 范围内的任何字符(无论这在您的语言环境中意味着什么 - 它可能与 Glenn Jackman 在评论中给出的列表完全相同,但它会是这样的)或一个空白字符重复 0 次或更多次,然后重复 0 次或更多次(是的,这没有意义),然后是 a 或 ),然后是重复 0 次或更多次的任何字符。因此,() 内的部分将从NAME= 之后的字符匹配到最后一个,) 之前的字符或第一次出现不在指定范围内的任何字符。

哦,至于为什么 Z 不包含在您的范围 0-z 中 - 该范围内的字符取决于您的语言环境。 a-z,例如可以是abc...z,也可以是aAbBcC...z(即不包括Z)。使用 POSIX 字符类而不是显式范围以实现可移植性,例如[[:lower:]][[:upper:]][[:alpha:]]

【讨论】:

  • 嗨编辑。这里的事情进展得很快:) 现在不支持惰性限定符是有道理的。那个 Z 也可以,在这里用一台挪威机器工作。我认为这只是正在使用的 ASCII 表。而我的 Z 在范围内。好吧,我想这很尴尬,但是我到底在哪里找到我的语言环境,这样我才能看到我的范围实际捕获的内容。 (我刚刚从网上弹出了一个 ASCII 表。)但请注意,“使用字符类”。
  • @glenn 提供的字符集应该可以正常工作,但这是我假设它使用的 ascii 表。在哪里可以找到我的电脑实际使用的范围?
  • 只需使用字符类或设置LC_ALL=C,您不必担心您不想要的默认值。
  • 恐怕 Z 的谜团还在继续,因为我发现我的charmap 是 ISO-8859-15,Z 在 0-z 范围内。我使用语言环境charmap 来查找表。 LC_ALL=C 也没有帮助。
  • 关闭这个并发布一个新问题,显示一些最小示例,仅演示您现在询问的特定问题,其中包含一些示例输入和预期输出以及您为此尝试的具体内容问题。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2023-03-24
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多