【发布时间】:2021-02-16 09:33:40
【问题描述】:
我正在尝试使用 python-docx 模块读取 .doc 文件, 我在做
import docx
path = 'Sample-doc-file-100kb.doc'
doc = docx.Document(path)
#extracting texts from doc
这适用于 .docx,但对于 .doc 文件会出现 ValueError: file 'Sample-doc-file-100kb.doc' is not a Word file, content type is 'application/vnd.openxmlformats-officedocument.themeManager+xml' 错误。
我搜索并发现这个 docx 模块不适用于旧版本的 doc 文件。我寻找将 doc 转换为 docx,但所有解决方案都依赖于 windows。
我在 aws-lambda 上运行此代码,因此无法使用这些方法。
有什么方法可以将 doc 转换为 docx(独立于平台)或读取 .doc 文件?
【问题讨论】:
标签: python python-3.x aws-lambda python-docx doc