【发布时间】:2016-08-08 16:27:08
【问题描述】:
我目前正在编写一些 python 代码,它使用“re”python 包在给定的项目列表中搜索具有正则表达式模式的项目。
在查看代码时,我遇到了一些我无法理解的关于正则表达式的花括号的问题。
代码片段是这样的。
regex = re.search("mov .* ptr \[(?P<dst>([(rax)|(rbx)|(rcx)|(rdx)|(rsi)|(rdi)|(r9)|(r10)|(r11)|(r12)|(r13)|(r14)|(r15)]{3}))\], (?P<src>([(rax)|(rbx)|(rcx)|(rdx)|(rsi)|(rdi)|(r9)|(r10)|(r11)|(r12)|(r13)|(r14)|(r15)]{3}))$", f)
f 是给定的输入,看起来像这样。
regex变成1,我打印了f的内容,显示是这样的。
"mov qword ptr [rsi], rdi"
我无法理解的是正则表达式中的花括号,在本例中为“{3}”。 据我了解,只有一个数字“n”的花括号用于表示前面的表达式需要恰好出现“n”次才能匹配(在我的例子中是 3 次)。 (例如,ab{3} 将导致 abbb 匹配)
所以,如果这是正确的,我认为“(rax),(rbx),(rcx)等”之一需要恰好出现3次才能匹配,但关于上面显示的f的内容,事实并非如此。
所以我想知道我遗漏了哪一点以及如何理解上面正则表达式中的花括号。
【问题讨论】:
-
文字/字符的重复次数
-
你能提供一个输入到搜索方法中的测试字符串吗?
-
这个正则表达式“有效”是由于错误使用了字符类。
[(rax)|(rbx)|(rcx)|(rdx)|(rsi)|(rdi)|(r9)|(r10)|(r11)|(r12)|(r13)|(r14)|(r15)]只是匹配里面的一个字符。 -
您可能希望将您的模式重写为
mov .*? ptr \[(?P<dst>r(?:[abcd]x|[sd]i|9|1[012345]))\], (?P<src>r(?:[abcd]x|[sd]i|9|1[012345]))$