【发布时间】:2019-12-01 14:23:10
【问题描述】:
对于 DOCX 文档,我这样做:
document = zipfile.ZipFile(path)
soup = BeautifulSoup(document.read('word/document.xml'), 'html.parser')
如何为 DOC 文档执行此操作?
【问题讨论】:
-
.doc文件格式不是基于 XML 的 - 不清楚你希望在这里得到什么..... -
我正在尝试从 word 文档中获取突出显示的文本,并且能够从
.docx的xml中获取突出显示的w:r以及以什么颜色显示。我想为.doc做同样的事情。有没有办法不仅可以从.doc中获取字符串,还可以获取它背后的“标记”/结构? -
您实际上是在请求一个库来解释专有的 .doc 格式。
标签: python xml ms-word docx doc