re.sub(\".*\", \", \"(replacement)\", \"text\") 在 Python 3.7 上加倍替换答案

【问题标题】：re.sub(".*", ", "(replacement)", "text") doubles replacement on Python 3.7re.sub(\".*\", \", \"(replacement)\", \"text\") 在 Python 3.7 上加倍替换
【发布时间】：2022-11-27 07:45:07
【问题描述】：

在 Python 3.7（在 Windows 64 位上测试）上，使用 RegEx .* 替换字符串会使输入字符串重复两次！

在 Python 3.7.2 上：

>>> import re
>>> re.sub(".*", "(replacement)", "sample text")
'(replacement)(replacement)'

在 Python 3.6.4 上：

>>> import re
>>> re.sub(".*", "(replacement)", "sample text")
'(replacement)'

在 Python 2.7.5（32 位）上：

>>> import re
>>> re.sub(".*", "(replacement)", "sample text")
'(replacement)'

怎么了？如何解决？

【问题讨论】：

显然是一个错误。不确定您希望得到什么样的答案。
只发生在.*（或.*$），而不是.+或^.*。而且，好吧，你有一个无穷匹配结束时零字节字符串的数量，所以你可能会很高兴你只得到一个重复。 :)
看起来这是一个有意的改变："Yes, this is an intended change. Your pattern matches an empty string at the end of the input string. It was a bug in earlier Python versions that re.sub() didn't replace empty matches adjacent to a previous non-empty match."
@Aran-Fey，因为.* 很贪心，我希望只得到一次“（替换）”。为什么是两个？
不过，这真的是 Python 中的错误吗？甚至 PCRE regex 的行为也完全相同。另请注意，Python variant 在 regex101 上的行为也相同，但他们也可以使用 3.7.2...奇怪的是，如果你有没有什么在那里，替换只发生一次。我猜字符串 ^ 的开头和字符串 $ 的结尾算作两个空格字符？

标签： python python-re

【解决方案1】：

这不是错误，而是来自提交 fbb490fd2f38bd817d99c20c05121ad0168a38ee 的 Python 3.7 中的错误修复。

在正则表达式中，非零宽度匹配将指针位置移动到匹配的末尾，以便下一个断言，无论是否为零宽度，都可以从匹配后的位置继续匹配。因此，在您的示例中，在 .* 贪婪地匹配并消耗整个字符串之后，指针随后移动到字符串末尾的事实实际上仍然为该位置的零宽度匹配留下了“空间”，因为可以从以下代码可以明显看出，它在 Python 2.7、3.6 和 3.7 中的行为相同：

>>> re.findall(".*", 'sample text')
['sample text', '']

因此，错误修复是关于在非零宽度匹配之后立即替换零宽度匹配，现在可以使用替换文本正确替换两个匹配。

【讨论】：