【发布时间】:2017-05-19 23:59:42
【问题描述】:
我制作了一个检测文件编码的模块。我希望能够将文件路径和编码作为类的输入,并且在处理文件内容时始终能够返回“utf-8”。
比如这样的
handler = UnicodeWrapper(file_path, encoding='ISO-8859-2')
for line in handler:
# need the line to be encoded in utf-8
process(line)
我不明白为什么还有一百万种编码。但是我想写一个总是返回unicode的接口。
是否已经有图书馆可以做到这一点?
【问题讨论】:
-
不完全是,但
Codecs模块为您提供了允许您将文件读入 unicode 字符串的包装器,这或多或少是 Python3 open 也直接允许的。
标签: python python-2.7 encoding utf-8