【发布时间】:2021-10-16 17:40:09
【问题描述】:
我厌倦了跟随 this question 创建一个将收缩与单词分开的正则表达式。
这是我的尝试:
line = re.sub( r'\s|(n\'t)|\'m|(\'ll)|(\'ve)|(\'s)|(\'re)|(\'d)', r" \1",line) #tokenize contractions
但是,只有第一个匹配项被标记化。例如:should've can't mustn't we'll 更改为 should ca n't must n't we
【问题讨论】:
-
无需使用
\1或用另一个括号包裹整个模式。要参考整场比赛,您只需要\g<0>。