【问题标题】:extract text from .doc (not docx)从 .doc 中提取文本(不是 docx)
【发布时间】:2017-09-17 01:44:19
【问题描述】:

我在stackoverflow和其他人中检查了mose问题和答案,有很多方法可以使用python打开和读取.docx文件而不是doc

我已经检查了 python-docx 库,但它只支持 docx。

我想从 .doc 文件(不是 docx)中打开和提取文本。请帮助我因为我是python新手

【问题讨论】:

    标签: python doc


    【解决方案1】:

    您可以使用Tika Python,它是用于python 的Apache Tika 绑定。另一个好的图书馆是textract

    【讨论】:

    • 这些都没有用。 Textract 用于 Python2,而不是 Python3。
    【解决方案2】:

    我创建了一个库来从 doc 文件中提取文本。它适用于 C 和 Python https://github.com/uvoteam/libdoc 用法示例:

    import extract_doc
    
    with open('./test.doc', 'rb') as myfile:
          data = bytearray(myfile.read())
          print(extract_doc.extract_doc_text(data, len(data)))
    

    【讨论】:

      猜你喜欢
      • 2011-07-29
      • 1970-01-01
      • 2011-08-06
      • 2013-10-30
      • 1970-01-01
      • 2011-10-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多