【发布时间】:2010-03-16 17:33:13
【问题描述】:
我们有一个 CMS,其中包含数千个文本/html 文件。事实证明,用户一直在使用各种字符编码(utf-8、utf-8 w BOM、windows 1252、iso-8859-1)上传 text/html 文件。
当这些文件被读取并写入响应时,我们的 CMS 框架会在响应的 content-type 属性上强制使用 charset=UTF-8。
因此,任何非 UTF-8 内容都会以错位字符(?、黑色菱形等,当没有从“本机”字符编码到 UTF-8 的正确字符转换时)显示给用户。此外,这些文档没有附加元数据指示字符集 - 据我所知,判断它们是什么字符集的唯一方法是在文本呈现应用程序(Firefox、Notepadd++ 等)中查看它们并“查看" 查看内容是否“看起来”正确。
有谁知道如何自动/智能地将未知编码的文件转换为 UTF-8?我已经读过这可以通过统计建模来完成,但这就是我想不到的。
关于如何最好地解决问题的想法?
谢谢
【问题讨论】:
标签: java utf-8 character-encoding iso-8859-1 windows-1252