【问题标题】:Python re.sub(): how to substitute all 'u' or 'U's with 'you'Python re.sub():如何用 'you' 替换所有 'u' 或 'U'
【发布时间】:2012-11-24 18:44:05
【问题描述】:

我正在使用 python 和正则表达式进行一些文本规范化。我想用'you'代替所有'u'或'U'。 这是我到目前为止所做的:

import re
text = 'how are u? umberella u! u. U. U@ U# u '
print re.sub (' [u|U][s,.,?,!,W,#,@ (^a-zA-Z)]', ' you ', text)

我得到的输出是:

how are you  you berella you  you  you  you  you  you

如您所见,问题在于“umberella”已更改为“berella”。我也想保留出现在“u”之后的字符。例如,我想要“你!”改为“你!”。谁能告诉我我做错了什么以及编写正则表达式的最佳方法是什么?

【问题讨论】:

    标签: python regex


    【解决方案1】:

    首先,为什么您的解决方案不起作用。你混淆了很多概念。主要是character class 和其他人。在第一个字符类中,您使用源自alternation|。在字符类中,您不需要管道。只需列出您想要的所有字符(和字符范围):

    [Uu]
    

    如果你使用不区分大小写的修饰符,或者直接写u。如果你在那里写一个管道,字符类实际上会匹配你的主题字符串中的管道。

    现在在第二个字符类中,出于某种奇怪的原因,您使用逗号分隔字符。除了在可匹配字符中包含逗号之外,这也无济于事。 sW 可能应该是内置字符类。然后逃离他们!否则它们只会匹配文字 s 和文字 W。但是\W 已经包含了您在此处列出的所有其他内容,因此单独使用\W(不带方括号)就足够了。最后一部分(^a-zA-Z) 也不起作用,因为它只会将^() 和所有字母包含在字符类中。否定语法仅适用于整个字符类,例如 [^a-zA-Z]

    您真正想要的是断言您的u 前后没有字母。您可以为此使用lookarounds。优点是它们不会被包含在匹配中,因此不会被删除:

    r'(?<![a-zA-Z])[uU](?![a-zA-Z])'
    

    请注意,我使用的是原始字符串。通常是正则表达式的好习惯,以避免转义序列出现问题。

    这些是负面的环视方法,可确保您的 u 之前或之后没有字母字符。这是断言周围有一个非字母字符(这与您所做的类似)的一个重要区别,因为后一种方法在字符串的开头或结尾不起作用。

    当然,您可以从替换字符串中删除you 周围的空格。

    如果您不想替换数字旁边的u,您可以轻松地将数字包含到字符类中:

    r'(?<![a-zA-Z0-9])[uU](?![a-zA-Z0-9])'
    

    如果由于某种原因相邻的下划线也会使您的 u 无法替换,您也可以将其包括在内。但随后字符类与内置\w不谋而合:

    r'(?<!\w)[uU](?!\w)'
    

    在这种情况下,相当于 EarlGray 的 r'\b[uU]\b'

    如上所述,您可以通过使用不区分大小写的修饰符来缩短所有这些。以第一个表达式为例:

    re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.I)
    

    re.sub(r'(?<![a-z])u(?![a-z])', 'you', text, flags=re.IGNORECASE)
    

    取决于你的喜好。

    我建议您阅读我在此答案中多次链接的教程。这些解释非常全面,应该让您在正则表达式方面有一个良好的开端,您可能迟早会再次遇到。

    【讨论】:

    • 您的回答非常出色。谢谢!
    • 这是一个有趣的通用技术,但我宁愿使用 \b 来匹配分词
    • @Sam 我只是想确保使用\b 的含义是明确的(特别是包含数字和下划线)。
    • ?&lt; 是做什么的?
    • @NeilAgarwal 你的意思是(?&lt;!...)?这是一个消极的回顾。答案中有一个关于环视教程的链接,我认为我自己无法更好地解释它(至少不在评论空间内)。
    【解决方案2】:

    使用特殊字符\b,匹配单词开头或结尾的空字符串:

    print re.sub(r'\b[uU]\b', 'you', text)
    

    空格不是一个可靠的解决方案,因为还有很多其他的标点符号,所以发明了一个抽象字符\b 来指示单词的开头或结尾。

    【讨论】:

    • 除了'\b''\x08' 相同。你需要逃跑('\\b'r'\b')!
    • 这是我在代码中定义的“文本”上的代码输出:你好吗?伞你!你。 U. U@ U# u 所以没有一个 u 变成了你。
    • @user823743 是的,我忘记了正则表达式之前的r,因为它是由 Wooble 编辑的(谢谢!)。
    • 请注意,\b 不是“抽象字符”,而是word boundary(它永远不会消耗任何字符,它只是一个位置)。如果u 被数字或下划线包围(取决于所需的行为),这也可能会让你失败
    【解决方案3】:

    这对我有用:

        import re
        text = 'how are u? umberella u! u. U. U@ U# u '
        rex = re.compile(r'\bu\b', re.IGNORECASE)
        print(rex.sub('you', text))
    

    它预编译正则表达式并使用 re.IGNORECASE,这样我们就不必担心正则表达式中的大小写了!顺便说一句,我喜欢伞的时髦拼写! :-)

    【讨论】:

      【解决方案4】:

      也可以通过下面的代码实现

      import re
      
      text = 'how are u? umberella u! u. U. U@ U# u '
      print (re.sub (r'[uU] ( [^a-z] )', r' you\1 ', text))
      

      print (re.sub (r'[uU] ( [\s!,.?@#] )', r' you\1 ', text))
      

      【讨论】:

        【解决方案5】:

        我想出的另一个可能的解决方案是:

        re.sub(r'([uU]+(.)?\s)',' you ', text)
        

        【讨论】:

          猜你喜欢
          • 2012-04-19
          • 1970-01-01
          • 2018-11-03
          • 1970-01-01
          • 2021-11-19
          • 1970-01-01
          • 1970-01-01
          • 2021-03-28
          相关资源
          最近更新 更多