【问题标题】:Python Pandas phone numbers cleaning by eliminating consecutive repeated charactersPython Pandas 通过消除连续重复字符来清理电话号码
【发布时间】:2022-01-23 15:40:51
【问题描述】:

我有一个零售数据集,其中包含未清理的手机号码。我有这样的数据

Phone Number
03451000000
03451000001
03451010101
03451111111
03459999999
03459090909

现在上述电话号码很有可能是收银员假录的。真正的数字看起来像这样,例如 03453485413。

有两件重要的事情:

  1. 字符串的长度始终固定为 11 个字符
  2. 电话号码始终以 03********* 开头

现在我如何根据消除5次以上字符重复的规则来消除电话号码?

【问题讨论】:

标签: python pandas data-manipulation


【解决方案1】:

您应该使用正则表达式来查找此类模式。

例如: (\d)\1{4,}

这将匹配一个数字并检查它是否再重复 4 次。示例 1、2、4 和 5 就是这种情况

另一个例子是:(\d\d)\1{2,}

这将匹配 2 个数字并检查它是否再重复 2 次。示例 1、3、4、5 和 6 就是这种情况

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-05-02
    • 1970-01-01
    • 2023-03-07
    • 1970-01-01
    • 2014-03-26
    • 1970-01-01
    • 2012-10-09
    相关资源
    最近更新 更多