【发布时间】:2015-03-26 03:48:40
【问题描述】:
我对 Microsoft Word 使用的编码不太熟悉。如果有人从 Word 中保存 .doc 或 .docx 文件,使用的标准编码是什么?
我猜它不是 UTF-8,因为结果文本(粘贴在 UTF-8 编码的文本文件中)不支持某些标点符号(例如引号)。
例如,当粘贴到 UTF-8 文本文件中时,开头的 Word“智能引用”会产生 ì 符号。如果 Word 确实以 UTF-8 编码,那么 Word 如何尝试呈现实际的 UTF-8 character?
编辑
经过一番挖掘,我可以看到 Microsoft Word .docx 文件实际上是一种压缩格式。解压缩它会导致解压缩许多 .xml 文件。
但是,UTF-8 编码的文本文件无法支持这些“智能”引号仍然令人困惑。任何有启发性的信息都会有所帮助。
【问题讨论】:
-
我无法重现该行为。可能是您的文本编辑器的问题?您可以使用 HxD 等十六进制编辑器进行检查,并查看实际写入文本文件的内容。 'LEFT DOUBLE QUOTATION MARK' (U+201C) 应使用以下 三个 字节进行编码:
E2 80 9C -
我不知道您使用什么文本编辑器来编辑该 xml 文件。我现在最好的选择是它做得不好。你在使用记事本++吗?如果没有,我会下载并安装 Notepad++。编码的使用非常透明。
-
据我所知,notepad++ 是一个简单的文本编辑器,不具备读取 pdf 或 docx 文件等二进制文件的功能。这就像让您的说英语的朋友记事本先生索引或翻译俄语文本。这是完全不同的字母/语言(不同的字符编码)
标签: utf-8 character-encoding ms-word