【发布时间】:2018-09-05 10:43:53
【问题描述】:
我正在尝试对此进行编码:
"LIAISONS Ã NEW YORK"
到这里:
"LIAISONS à NEW YORK"
print(ascii(value)) 的输出是
'LIAISONS \xc3 NEW YORK'
我先尝试在 cp1252 中编码,然后在 utf8 中解码,但我得到了这个:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 9: invalid continuation byte
我也尝试使用 Latin-1/ISO-8859-2 进行编码,但这也不起作用。
我该怎么做?
【问题讨论】:
-
您能否提供
print(ascii(inputvalue))的输出以帮助我们了解您拥有的实际数据?如果您有 mojibake,那么可能缺少一些额外的字节,以便从 UTF-8 重新编码(特别是à的 UTF-8 编码中的A0字节,C3 A0)。 -
确定输出:'LIAISONS \xc3 NEW YORK'
-
那你就回不了UTF-8了,丢失的字节已经没有了。
-
哦,真不走运,请回答
标签: python encoding utf-8 mojibake