【问题标题】:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byteUnicodeDecodeError:“utf-8”编解码器无法解码位置 3 中的字节 0xcc:无效的继续字节
【发布时间】:2018-01-11 13:24:26
【问题描述】:

我正在尝试使用 pd.read_csv 加载 csv 文件,但出现以下 unicode 错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte

【问题讨论】:

  • 你能分享你的代码吗?这样可以更轻松地为您提供帮助。
  • 这只是pd.read_csv('../filename.csv') 然后我得到那个unicode错误。谢谢!

标签: pandas csv unicode load python-unicode


【解决方案1】:

很遗憾,CSV 文件没有内置的信号字符编码方法。

read_csv 默认猜测 CSV 文件中的字节表示以 UTF-8 编码编码的文本。如果文件使用其他编码导致字节碰巧不是有效的 UTF-8 序列,这将导致 UnicodeDecodeError。 (如果碰巧它们也是有效的 UTF-8,您不会收到错误,但您仍然会输入错误的非 ASCII 字符,这真的会更糟。)

您可以指定正在播放的编码,这需要一些关于它来自哪里的知识(或猜测)。例如,如果它来自西方安装的 Windows 上的 MS Excel,它可能是 Windows 代码页 1252,您可以阅读:

pd.read_csv('../filename.csv', encoding='cp1252')

【讨论】:

    【解决方案2】:

    我收到以下错误

    UnicodeDecodeError: 'utf-8' 编解码器无法在位置解码字节 0xe9 51: 无效的继续字节

    这是因为我更改了文件及其编码。您还可以尝试使用 ubuntu 中的一些代码或 nqq 编辑器将文件的编码更改为 utf-8,因为它提供了更改编码的目录选项。如果问题仍然存在,请尝试撤消对文件所做的所有更改或更改目录。

    希望对你有帮助

    【讨论】:

      【解决方案3】:

      复制代码,打开一个新的.py文件并输入代码并保存。

      【讨论】:

        猜你喜欢
        • 2020-11-02
        • 2021-01-02
        • 2021-04-27
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2021-08-29
        • 2019-08-07
        相关资源
        最近更新 更多