【发布时间】:2021-10-10 21:30:56
【问题描述】:
我有以下数据集:
a_df = pd.DataFrame({'id':[1,2,3,4,5],'text':['This was fuuuuun','aaaawesome','Hiiigh altitude','Oops','See you']})
a_df
id text
0 1 This was fuuuuun
1 2 aaaawesome
2 3 Hiiigh altitude
3 4 Oops
4 5 See you
有些词拼错了。一个适用的规则是,如果我看到三个或更多元音或辅音,那么我可以以某种方式确定有一个拼写错误的单词,所以我用 '' 替换那个重复。
所以我试过这个:
a_df['corrected_text'] = a_df['text'].str.replace(r'([a-zA-Z])\\3+','')
但是没有变化。我的逻辑是尝试捕获重复的字母,但我一定做错了什么。请,任何帮助将不胜感激。
【问题讨论】:
-
a_df['text'].str.replace(r'([a-zA-Z])\1{2,}',r'\1') -
您好@WiktorStribiżew,非常感谢您,我对其进行了测试并且工作正常。拜托,只是一个问题让我学习,为什么要使用
\1{2,}? -
我希望我在答案中解释得很好。