【问题标题】:How to read '.doc' file with python-docx module如何使用 python-docx 模块读取“.doc”文件
【发布时间】:2021-02-16 09:33:40
【问题描述】:

我正在尝试使用 python-docx 模块读取 .doc 文件, 我在做

import docx

path = 'Sample-doc-file-100kb.doc'
doc = docx.Document(path) 
#extracting texts from doc

这适用于 .docx,但对于 .doc 文件会出现 ValueError: file 'Sample-doc-file-100kb.doc' is not a Word file, content type is 'application/vnd.openxmlformats-officedocument.themeManager+xml' 错误。

我搜索并发现这个 docx 模块不适用于旧版本的 doc 文件。我寻找将 doc 转换为 docx,但所有解决方案都依赖于 windows。

我在 aws-lambda 上运行此代码,因此无法使用这些方法。

有什么方法可以将 doc 转换为 docx(独立于平台)或读取 .doc 文件?

【问题讨论】:

    标签: python python-3.x aws-lambda python-docx doc


    【解决方案1】:

    将 doc 转换为 docx(平台无关)

    如果您能够提供可用的 LibreOffice 或 OpenOffice,那么您可以尝试使用 unoconv 进行 doc 到 docx 的转换

    是一个命令行工具,用于转换 LibreOffice 的任何文档格式 可以导入任何 LibreOffice 可以导出的文档格式。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-06-30
      • 1970-01-01
      • 2021-09-01
      • 2012-04-15
      • 1970-01-01
      相关资源
      最近更新 更多