【发布时间】:2010-02-21 22:55:54
【问题描述】:
这与我的问题here有关。
我处理大量通过 HTTP 获取的文本(主要是 HTML 和 XML)。我正在寻找一个 Python 库,它可以根据不同的策略进行智能编码检测,并使用可能的最佳字符编码猜测将文本转换为 unicode。
我发现chardet 的自动检测功能非常好。然而,自动检测一切都是问题,因为它很慢并且非常不符合所有标准。根据chardetFAQ,我不想搞砸标准。
来自同一个常见问题解答是我要查找编码的位置列表:
- HTTP
Content-type标头中的字符集参数。 -
<meta http-equiv="content-type">元素 HTML 网页的<head>文件。 - XML 序言中用于 XML 的编码属性 文件。
- 自动检测字符编码作为最后的手段。
基本上我希望能够查看所有这些地方并自动处理冲突信息。
那里有这样的库还是我需要自己写?
【问题讨论】:
标签: python html xml http character-encoding