【问题标题】:How to get XML from DOC (not DOCX)?如何从 DOC(不是 DOCX)获取 XML?
【发布时间】:2019-12-01 14:23:10
【问题描述】:

对于 DOCX 文档,我这样做:

document = zipfile.ZipFile(path)
soup = BeautifulSoup(document.read('word/document.xml'), 'html.parser')

如何为 DOC 文档执行此操作?

【问题讨论】:

  • .doc 文件格式不是基于 XML 的 - 不清楚你希望在这里得到什么.....
  • 我正在尝试从 word 文档中获取突出显示的文本,并且能够从 .docxxml 中获取突出显示的 w:r 以及以什么颜色显示。我想为.doc 做同样的事情。有没有办法不仅可以从.doc 中获取字符串,还可以获取它背后的“标记”/结构?
  • 您实际上是在请求一个库来解释专有的 .doc 格式。

标签: python xml ms-word docx doc


【解决方案1】:

你没有。

DOCX 非常难以处理,它们基于 XML 并由国际标准组织记录。 DOC 文件是二进制和专有的。

不要尝试直接处理 DOC 文件。 先将它们转换为 DOCX。

参见:

【讨论】:

    猜你喜欢
    • 2017-09-17
    • 1970-01-01
    • 2018-01-26
    • 2011-07-29
    • 2016-05-22
    • 2020-12-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多