Python re.sub()：如何用 'you' 替换所有 'u' 或 'U'答案

【问题标题】：Python re.sub(): how to substitute all 'u' or 'U's with 'you'Python re.sub()：如何用 'you' 替换所有 'u' 或 'U'
【发布时间】：2012-11-24 18:44:05
【问题描述】：

我正在使用 python 和正则表达式进行一些文本规范化。我想用'you'代替所有'u'或'U'。这是我到目前为止所做的：

import re
text = 'how are u? umberella u! u. U. U@ U# u '
print re.sub (' [u|U][s,.,?,!,W,#,@ (^a-zA-Z)]', ' you ', text)

我得到的输出是：

how are you  you berella you  you  you  you  you  you

如您所见，问题在于“umberella”已更改为“berella”。我也想保留出现在“u”之后的字符。例如，我想要“你！”改为“你！”。谁能告诉我我做错了什么以及编写正则表达式的最佳方法是什么？

【问题讨论】：

标签： python regex

【解决方案1】：

首先，为什么您的解决方案不起作用。你混淆了很多概念。主要是character class 和其他人。在第一个字符类中，您使用源自alternation 的|。在字符类中，您不需要管道。只需列出您想要的所有字符（和字符范围）：

[Uu]

如果你使用不区分大小写的修饰符，或者直接写u。如果你在那里写一个管道，字符类实际上会匹配你的主题字符串中的管道。

现在在第二个字符类中，出于某种奇怪的原因，您使用逗号分隔字符。除了在可匹配字符中包含逗号之外，这也无济于事。 s 和 W 可能应该是内置字符类。然后逃离他们！否则它们只会匹配文字 s 和文字 W。但是\W 已经包含了您在此处列出的所有其他内容，因此单独使用\W（不带方括号）就足够了。最后一部分(^a-zA-Z) 也不起作用，因为它只会将^、(、) 和所有字母包含在字符类中。否定语法仅适用于整个字符类，例如 [^a-zA-Z]。

您真正想要的是断言您的u 前后没有字母。您可以为此使用lookarounds。优点是它们不会被包含在匹配中，因此不会被删除：

r'(?<![a-zA-Z])[uU](?![a-zA-Z])'

请注意，我使用的是原始字符串。通常是正则表达式的好习惯，以避免转义序列出现问题。

这些是负面的环视方法，可确保您的 u 之前或之后没有字母字符。这是断言周围有一个非字母字符（这与您所做的类似）的一个重要区别，因为后一种方法在字符串的开头或结尾不起作用。

当然，您可以从替换字符串中删除you 周围的空格。

如果您不想替换数字旁边的u，您可以轻松地将数字包含到字符类中：

r'(?<![a-zA-Z0-9])[uU](?![a-zA-Z0-9])'

如果由于某种原因相邻的下划线也会使您的 u 无法替换，您也可以将其包括在内。但随后字符类与内置\w不谋而合：

r'(?<!\w)[uU](?!\w)'

在这种情况下，相当于 EarlGray 的 r'\b[uU]\b'。

如上所述，您可以通过使用不区分大小写的修饰符来缩短所有这些。以第一个表达式为例：

re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.I)

或

re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.IGNORECASE)

取决于你的喜好。

我建议您阅读我在此答案中多次链接的教程。这些解释非常全面，应该让您在正则表达式方面有一个良好的开端，您可能迟早会再次遇到。

【讨论】：

您的回答非常出色。谢谢！
这是一个有趣的通用技术，但我宁愿使用 \b 来匹配分词
@Sam 我只是想确保使用\b 的含义是明确的（特别是包含数字和下划线）。
?< 是做什么的？
@NeilAgarwal 你的意思是(?<!...)？这是一个消极的回顾。答案中有一个关于环视教程的链接，我认为我自己无法更好地解释它（至少不在评论空间内）。

【解决方案2】：

使用特殊字符\b，匹配单词开头或结尾的空字符串：

print re.sub(r'\b[uU]\b', 'you', text)

空格不是一个可靠的解决方案，因为还有很多其他的标点符号，所以发明了一个抽象字符\b 来指示单词的开头或结尾。

【讨论】：

除了'\b' 与'\x08' 相同。你需要逃跑（'\\b' 或r'\b'）！
这是我在代码中定义的“文本”上的代码输出：你好吗？伞你！你。 U. U@ U# u 所以没有一个 u 变成了你。
@user823743 是的，我忘记了正则表达式之前的r，因为它是由 Wooble 编辑的（谢谢！）。
请注意，\b 不是“抽象字符”，而是word boundary（它永远不会消耗任何字符，它只是一个位置）。如果u 被数字或下划线包围（取决于所需的行为），这也可能会让你失败

【解决方案3】：

这对我有用：

    import re
    text = 'how are u? umberella u! u. U. U@ U# u '
    rex = re.compile(r'\bu\b', re.IGNORECASE)
    print(rex.sub('you', text))

它预编译正则表达式并使用 re.IGNORECASE，这样我们就不必担心正则表达式中的大小写了！顺便说一句，我喜欢伞的时髦拼写！ :-)

【讨论】：

【解决方案4】：

也可以通过下面的代码实现

import re

text = 'how are u? umberella u! u. U. U@ U# u '
print (re.sub (r'[uU] ( [^a-z] )', r' you\1 ', text))

或

print (re.sub (r'[uU] ( [\s!,.?@#] )', r' you\1 ', text))

【讨论】：

【解决方案5】：

我想出的另一个可能的解决方案是：

re.sub(r'([uU]+(.)?\s)',' you ', text)

【讨论】：