【发布时间】:2014-01-23 13:49:28
【问题描述】:
我有以下文本文件,我想从中提取“NAME=”和后面的第一个“,”或“)”字符之间的内容。
AZTBCM = (CURVE=(NAME=AZTBCM), -SOME TEXT
B08M = (CURVE=(NAME=B08M), - SOME TEXT
YMOD = (CURVE=(NAME=YMOD), - SOME TEXT
ZCCP = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
gensub 中的字符范围和惰性选择不像在 nedit 中那样工作。在以下 awk-script 文件中,您可以找到我尝试过的不同行
#! /bin/awk -f
{name=gensub(/.*NAME=(.*?)[,)].*/,"\\1","g",$0); print "line1 "name} #line1
{name=gensub(/.*NAME=([:alnum:]*?)[,)].*/,"\\1","g",$0); print "line2 "name} #line2
{name=gensub(/.*NAME=([0-z ]*?)[,)].*/,"\\1","g",$0); "line3 "print name} #line3
{name=gensub(/.*NAME=([0-z Z]*?)[,)].*/,"\\1","g",$0); "line4 "print name} #line4
{name=gensub(/.*NAME=([0-Z0-9]*?)[,)].*/,"\\1","g",$0); "line5 "print name} #line5
这会产生以下结果:
line1 AZTBCM)
line2 AZTBCM = (CURVE=(NAME=AZTBCM), -SOME TEXT
line3 AZTBCM = (CURVE=(NAME=AZTBCM), -SOME TEXT
line4 AZTBCM
line5 AZTBCM
line1 B08M)
line2 B08M = (CURVE=(NAME=B08M), - SOME TEXT
line3 B08M
line4 B08M
line5 B08M
line1 YMOD)
line2 YMOD = (CURVE=(NAME=YMOD), - SOME TEXT
line3 YMOD
line4 YMOD
line5 YMOD
line1 ZCCP, CURVE TYPE= GAMMA)
line2 ZCCP = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
line3 ZCCP = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA), - SOME TEXT
line4 ZCCP
line5 ZCCP
第 1 行只返回包含“)”的名称。我的懒惰限定符应该防止这种情况发生。 Nedit 使用相同的选择/替换只给出名称。查看 ZCCP 案例,它甚至似乎继续捕获并包括最后一个括号。
Line2 不返回匹配项,因此返回 $0。也无法在 Nedit 中使用它。(似乎不受支持,没关系)
Line3 应取零以降低 ascii 表的 z。这对我来说是最奇怪的失败。由于我加载了更多行,因此只有在名称中有 Z 时才会失败。甚至在我的字符范围内的终止字符之类的小写字母中也不行。
第 4 行我添加了空格和 Z(实际上不需要空格)以查看字符范围是否由于某些未知原因而错过了它。似乎有一个,因为它现在又可以工作了。 忘记第 5 行 :)
任何人都可以主要阐明这种捕获在第一行的情况下是如何工作的吗?我不明白为什么它会推动第一个括号。其次,为什么我的字符范围不包括“Z”?
干杯,罗伯特
PS 这个问题似乎是两个折叠的。所以我把这篇文章的标题改成了aqtually回答的问题。
【问题讨论】:
-
注意,这个
[:alnum:]是一个字符类,它们需要出现在一个括号表达式中,所以你需要:[[:alnum:]]——没有外括号,你可以匹配:或者a或l或n或u或m -
另外,
[0-z]是集合 0,1,2,3,4,5,6,7,8,9,:,;,,?,@, A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y, Z,[,\,],^,_,`,a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r, s,t,u,v,w,x,y,z -- 你想匹配所有这些吗? -
*是重复前一个 RE 段 0 次或更多次的 RE 元字符。?是重复前一个 RE 段 0 或 1 次的 RE 元字符。因此,当您写*?时,我什至不确定这对 awk 意味着什么,但几乎可以肯定它不是您认为应该是什么意思。我认为问题在于您正在尝试使用某种不是 POSIX 定义的 ERE 的 RE 语言,这是 awk 所理解的。请参阅@devnull 的答案,了解如何在 awk 中做您想做的事情。 -
(.*?)[,)] 将捕获任何字符,直到它看到它的第一个 , 或 )。它将贪婪捕获(它将捕获所有直到最后一个,)在线)变成惰性捕获,其中所有被捕获,直到在线上的第一次出现。所以 (.*?)[,)] 将捕获:" ZCCP = (CURVE=(NAME=ZCCP," 而不是" ZCCP = (CURVE=(NAME=ZCCP, CURVE TYPE= GAMMA)"。事实上它不是做我认为应该做的事或 Nedit 正在做的事。
-
@RobbertKoppenol - 在 ERE(awk 使用的)中没有你所说的
lazy capturing这样的东西。也许这就是 Perl REs 中的东西?