【发布时间】:2017-11-26 07:18:19
【问题描述】:
我从网上下载了 95 个 CSV 小文件。他们的模式应该非常相似。我正在尝试将它们与 Python pandas 连接,但是在调用 pd.read_csv 时,这些文件的各种编码会导致问题,我不确定将它们转换为一致编码的最佳方法是什么,例如UTF-8。编码包括
ASCII text, with CRLF line terminators
Little-endian UTF-16 Unicode English text, with CRLF line terminators
Little-endian UTF-16 Unicode text, with CRLF line terminators
Little-endian UTF-16 Unicode text, with CRLF, CR line terminators
UTF-8 Unicode (with BOM) English text, with CRLF line terminators
UTF-8 Unicode (with BOM) text, with CRLF line terminators
上面的列表是用
生成的file -b *.csv | sort | uniq
【问题讨论】:
-
您可以使用第 3 方 chardet 模块在 Python 中进行编码检测。如果你想通过 shell 进行转换,你的系统应该有标准的
chardet和iconv程序。 -
谢谢。将检查chardet。我之前尝试过iconv,但我发现很难找到
file输出和编码的确切名称之间的对应关系。