【问题标题】:Using Python to extract images and text from a word document使用 Python 从 word 文档中提取图像和文本
【发布时间】:2011-06-14 14:29:36
【问题描述】:

我想在一个充满 word 文档的文件夹上运行一个脚本,该脚本读取文档并提取图像及其标题(图像正下方的文本)。从我所做的研究来看,我认为 pywin32 可能是一个可行的解决方案。我知道如何使用 pywin32 查找字符串并将它们拉出,但我需要图像部分的帮助。如何阅读 docx 文件并在找到图像时发生事件?感谢您的任何帮助!我正在使用 Python 2.7。

【问题讨论】:

    标签: python image ms-word extract pywin32


    【解决方案1】:

    Docx 文件可以解压缩以提取图像。

    【讨论】:

      【解决方案2】:

      在这篇文章How can I search a word in a Word 2007 .docx file?中找到一些灵感

      【讨论】:

        【解决方案3】:

        您可以使用python模块docx2txt从docx文件中提取文本和图像

        【讨论】:

          【解决方案4】:
          document =docx.Document(filepath)
          for image in document.inline_shapes:
              print (image.width, image.height)
          

          试试这个吧。

          【讨论】: