【发布时间】:2019-03-03 10:54:27
【问题描述】:
尝试格式化这个字符串并去掉非ascii字符
import re
text = '<phone_number><![CDATA[0145236243 <0x0C><0x05><0x4>
]>' clean = re.sub('[^\x00-\x7f]',"", text)
这似乎无法正常工作。有人有适当的解决方案吗?我还上传了一个文件,以防 stackoverflow 格式化了非 ascci 字符。
【问题讨论】:
-
预期输出是什么?
-
类似这样的文本 = '
' -
你例子中的所有字符都是ASCIIchar
-
您的文本中没有非 ascii 字符。你只有字符和数字。您的预期输出也包含contact_number,应该是phone_number,但我认为这是一个错字