【发布时间】:2018-10-16 09:53:12
【问题描述】:
我需要在 python3 中用复杂字符串中的\ 替换\\。我知道这个问题已经被问过好几次了,但大部分时间都是针对简单字符串的,所以(接受的)答案都不适用于复杂的字符串。
这也与this one不同,问题可以通过.decode('unicode_escape') 解决,但不适用于此问题。 见下文。
假设字符串是:
my_str = '\\xa5\\xc0\\xe6aK\\xf9\\x80\\xb1\\xc8*\x01\x12$\\xfbp\x1e(4\\xd6{;Z\\x'
直截了当的方法是:
my_str.replace('\\','\')
导致:
SyntaxError:扫描字符串文字时 EOL
answer 建议使用:
my_str.replace('\\\\','\\')
结果:
'\\xa5\\xc0\\xe6aK\\xf9\\x80\\xb1\\xc8*\x01\x12$\\xfbp\x1e(4\\xd6{;Z\\x'
所以,没有变化。
这个answer 建议:
b = bytes(my_str, encoding='utf-8')
b.decode('unicode-escape')
但这不适用于如此复杂的字符串:
UnicodeDecodeError: 'unicodeescape' 编解码器无法解码位置 49-50 中的字节:截断 \xXX 转义
使用解码(建议here)会导致:
my_str.decode('unicode_escape')
AttributeError: 'my_str' 对象没有属性 'decode'
使用unicode_esacpe 编码和解码的组合返回一个完全不同的字符串(可能是由于使用utf-16,但utf-8 会导致错误,见上文。另外,例如latin1 不起作用):
my_str.encode('utf-16').decode('unicode_escape')
'ÿþ\\\x00x\x00a\x005\x00\\\x00x\x00c\x000\x00\\\x00x\x00e\x006\x00a\x00K\x00\\\x00x\x00f\x009\x00\\\x00x\x008\x000\x00\\\x00x\x00b\x001\x00\\\x00x\x00c\x008\x00*\x00\x01\x00\x12\x00$\x00\\\x00x\x00f\x00b\x00p\x00\x1e\x00(\x004\x00\\\x00x\x00d\x006\x00{\x00;\x00Z\x00\\\x00x\x00'
【问题讨论】:
-
your_text.replace('\\', '')有效吗?你实际上没有任何双文字反斜杠...... -
对,这行得通。一旦我将 '\' 作为第二个参数,它就不再起作用了。
-
我猜你真的不需要这样做。通常,人们打印出值并看到双反斜杠,但这只是 Python 明确向您展示字符串中有一个反斜杠的方式。你能多说一下这个字符串的来源,以及你为什么要改变它吗?
-
@black 给我们更多细节,我们可以帮助解决问题。或者加入我们在 Freenode 上的#python IRC 频道,在这里我们可以进行实际讨论并深入了解它。
标签: python string python-3.x replace