【发布时间】:2017-09-17 01:44:19
【问题描述】:
我在stackoverflow和其他人中检查了mose问题和答案,有很多方法可以使用python打开和读取.docx文件而不是doc
我已经检查了 python-docx 库,但它只支持 docx。
我想从 .doc 文件(不是 docx)中打开和提取文本。请帮助我因为我是python新手
【问题讨论】:
我在stackoverflow和其他人中检查了mose问题和答案,有很多方法可以使用python打开和读取.docx文件而不是doc
我已经检查了 python-docx 库,但它只支持 docx。
我想从 .doc 文件(不是 docx)中打开和提取文本。请帮助我因为我是python新手
【问题讨论】:
您可以使用Tika Python,它是用于python 的Apache Tika 绑定。另一个好的图书馆是textract。
【讨论】:
我创建了一个库来从 doc 文件中提取文本。它适用于 C 和 Python https://github.com/uvoteam/libdoc 用法示例:
import extract_doc
with open('./test.doc', 'rb') as myfile:
data = bytearray(myfile.read())
print(extract_doc.extract_doc_text(data, len(data)))
【讨论】: