【发布时间】:2017-10-17 05:34:56
【问题描述】:
我正在做一个与分析相关的项目。为此,我需要从 MS WORD 中计算一些行的值。如果它是 .docx 扩展名,那么对我来说没有问题,但是当它是 .doc 扩展名时,我无法读取这些文件。我能为此做些什么?我正在使用 python 3.6 并安装了 .docx 模块。期待一个好的答案。提前致谢!
【问题讨论】:
标签: python python-3.x docx
我正在做一个与分析相关的项目。为此,我需要从 MS WORD 中计算一些行的值。如果它是 .docx 扩展名,那么对我来说没有问题,但是当它是 .doc 扩展名时,我无法读取这些文件。我能为此做些什么?我正在使用 python 3.6 并安装了 .docx 模块。期待一个好的答案。提前致谢!
【问题讨论】:
标签: python python-3.x docx
您可以使用 win32com 执行此操作:
import win32com
from win32com.client import gencache, constants, Dispatch
# that's the magic part
gencache.EnsureModule('{00020905-0000-0000-C000-000000000046}', 0, 8, 3)
app = Dispatch("Word.Application.8")
# open a document
app.Documents.Open("MyDocument.doc")
现在您可以使用此文档做任何您想做的事情。 如果带有 gencache 的行给你一个错误,那么你需要首先通过执行来创建 COM 模块:
lib\site-packages\win32com\client\makepy.py
这将弹出一个窗口,您需要在其中选择“Microsoft Word 对象库”。
【讨论】: