如何在正则表达式中包含重音词答案

【问题标题】：How to Include accented words in regex如何在正则表达式中包含重音词
【发布时间】：2026-01-21 00:35:01
【问题描述】：

我有一个 utf-8 文本，其中包含大写的单词：

La cinta, que hoy se estrena en nuestro país, competirá contra Hors la
Loi, de Argelia, Dogtooth, de Grecia, Incendies, de Canadá, Life above
all , de Sudáfrica, y con la ganadora del Globo de Oro, In A Better
World, de Dinamarca.

所需的输出是将所有以大写字母开头的单词替换为占位符（即#NE#），第一个单词除外。所以所需的输出如下所示：

La cinta, que hoy se estrena en nuestro país, competirá contra  #NE#
la  #NE# , de #NE# ,  #NE# , de  #NE# ,  #NE# , de  #NE#,  #NE# above
all , de #NE# , y con la ganadora del  #NE# de  #NE# ,  #NE# A #NE# #NE# , de  #NE# .

我尝试过如下使用正则表达式：

>>> import re
>>> def blind_CAPS_without_first_word(text):
...     first_word, _, the_rest = text.partition(' ')
...     blinded = re.sub('(?:[A-Z][\w]+\s*)', ' #NE# ', the_rest)
...     return " ".join([first_word, blinded])
... 
>>> text = "La cinta, que hoy se estrena en nuestro país, competirá contra Hors la Loi, de Argelia, Dogtooth, de Grecia, Incendies, de Canadá, Life above all , de Sudáfrica, y con la ganadora del Globo de Oro, In A Better World, de Dinamarca."
>>> blind_CAPS_without_first_word(text)

[出]：

La cinta, que hoy se estrena en nuestro país, competirá contra #NE# la #NE# , de #NE# , #NE# , de #NE# , #NE# , de #NE# á, #NE# 最重要的是，de #NE# áfrica, y con la ganadora del #NE# de #NE# , #NE# A #NE# #NE# , de #NE# 。

但是当使用\w 时，正则表达式没有考虑重音字符，例如Canadá -> #NE# á; Sudáfrica -> #NE# áfrica。 我该如何解决这个问题？如何在我的正则表达式中包含重音词？ 必须是 Canadá -> #NE#; Sudáfrica -> #NE#。

我想如果忽略像A 这样的单个字符单词仍然是A 是可以的。除非有办法解决这个问题。

【问题讨论】：

不知道为什么替换不了La？
因为它需要跳过第一个单词，因此str.partition()

标签： python regex capitalization

【解决方案1】：

因为\w+ 或[\w]+ 不会匹配重音字符。所以它无法匹配这些词。

您可以使用\S+ 代替\w+

re.sub(r'[A-Z]\S+\s*', ' #NE# ', the_rest)

或

如果您只想匹配任何语言的单词字符，请使用正则表达式模块。

regex.sub(r'[A-Z]\p{L}+\s*', ' #NE# ', the_rest)

【讨论】：

我知道\w 不匹配重音字符。有什么办法？
ahhh 非空白字符。

【解决方案2】：

您是否有机会使用 unicode 表示法来捕获字符范围？示例： [\xC0-\xE1] 还是什么？我通过Pythex 运行它，它似乎并不介意......你需要找到自己的范围，但这是一个开始:)

希望这会有所帮助。

【讨论】：