【发布时间】:2022-01-23 15:40:51
【问题描述】:
我有一个零售数据集,其中包含未清理的手机号码。我有这样的数据
| Phone Number |
|---|
| 03451000000 |
| 03451000001 |
| 03451010101 |
| 03451111111 |
| 03459999999 |
| 03459090909 |
现在上述电话号码很有可能是收银员假录的。真正的数字看起来像这样,例如 03453485413。
有两件重要的事情:
- 字符串的长度始终固定为 11 个字符
- 电话号码始终以 03********* 开头
现在我如何根据消除5次以上字符重复的规则来消除电话号码?
【问题讨论】:
-
正则表达式是你的救星:docs.python.org/3/library/re.html
标签: python pandas data-manipulation