【发布时间】:2021-08-27 09:27:11
【问题描述】:
这是初学者的问题。 我尝试删除连字符和personalnumber 列中personalnumber 的前两个字符。连字符仍然存在于我的 df 中,并且我收到一条错误消息,表示我正在尝试使用正则表达式进行替换(见图)。
这是一个 12 位编号的个人号码,我想在其中删除“19”年。
我在想这可能是因为我的 dtype 是对象,我试图将其更改为字符串,但这也不适用——即使我没有收到语法错误,就像在连字符的情况下一样。要将对象更改为我使用的字符串:
app_df_new.astype({'personalnumber': str}).dtypes
当我在正则表达式中添加缺少的 '\ 时,它会给我以下错误消息:
【问题讨论】:
-
当你谈论你模糊的数据时它不是很有帮助
-
对不起,因为它是 SSN 的。但重要的是其中一种个人号码格式是:YYMMDD-XXXX。我正在尝试去掉 [70] 中的连字符。在数据集的其余部分,格式是 YYYYMMDDXXXX,在 [71] 中我试图去掉前两个字符。结果将是 YYMMDDXXXX。
-
你可以显示示例数据 man
-
吸取教训! :)
-
如果你觉得我的回答有帮助,可以采纳
标签: python lambda str-replace