如何从 DOC（不是 DOCX）获取 XML？答案

【问题标题】：How to get XML from DOC (not DOCX)?如何从 DOC（不是 DOCX）获取 XML？
【发布时间】：2019-12-01 14:23:10
【问题描述】：

对于 DOCX 文档，我这样做：

document = zipfile.ZipFile(path)
soup = BeautifulSoup(document.read('word/document.xml'), 'html.parser')

如何为 DOC 文档执行此操作？

【问题讨论】：

.doc 文件格式不是基于 XML 的 - 不清楚你希望在这里得到什么.....
我正在尝试从 word 文档中获取突出显示的文本，并且能够从 .docx 的 xml 中获取突出显示的 w:r 以及以什么颜色显示。我想为.doc 做同样的事情。有没有办法不仅可以从.doc 中获取字符串，还可以获取它背后的“标记”/结构？
您实际上是在请求一个库来解释专有的 .doc 格式。

【解决方案1】：

你没有。

DOCX 非常难以处理，它们基于 XML 并由国际标准组织记录。 DOC 文件是二进制和专有的。

不要尝试直接处理 DOC 文件。 先将它们转换为 DOCX。

参见：

【讨论】：