【问题标题】:html to .doc converter in Python?Python中的html到.doc转换器?
【发布时间】:2010-11-19 14:48:07
【问题描述】:

我正在使用 pisa,它是 Python 的 HTML 到 PDF 转换库。

Word 文档是否存在相同的东西:Python 的 HTML 到 .doc 转换库?

【问题讨论】:

  • 你为什么要这个? MS Word 可以读取 HTML。
  • 我有同样的问题:我有一个使用 pisa 转换为 pdf 的 html,我想用 word 做同样的事情。它是一个很大的文档,大约 20 页,使用相同的代码生成 html,然后通过比萨或其他方式导出会很棒。
  • @Eric:最近,我遇到了同样的问题。只是想知道,您是否找到将 HTML 转换为 Word .docx 的解决方案?谢谢。
  • @tao.hong : 你的问题解决了吗?我也在寻找合适的开源解决方案。谢谢

标签: python ms-word pisa


【解决方案1】:

您可以使用 Windows 的 pywin32 python 扩展中的 win32com,让 MS Word 为您转换它。一个简单的例子:

import win32com.client

word = win32com.client.Dispatch('Word.Application')

doc = word.Documents.Add('example.html')
doc.SaveAs('example.doc', FileFormat=0)
doc.Close()

word.Quit()

【讨论】:

    【解决方案2】:

    虽然我不知道有一个直接模块可以让你转换它,但是:

    1. 您可以先使用html2text 模块将HTML 转换为纯文本
    2. 之后,您可以使用python-docx 模块将文本转换为docdocx 文件。

    【讨论】:

      【解决方案3】:

      如果其他人在这里尝试以相反的方式进行转换,上述代码可以工作,但您需要修改 FileFormat 值。

      http://msdn.microsoft.com/en-us/library/ff839952.aspx

      示例:过滤后的 html 为 10,而不是 0。

      【讨论】:

        【解决方案4】:

        用 python3.x 更新修复这个问题:

        from htmldocx import HtmlToDocx
        
        new_parser = HtmlToDocx()
        new_parser.parse_html_file("html_filename", "docx_filename")
        #Files extensions not needed, but tolerated
        

        【讨论】:

          猜你喜欢
          • 2011-06-07
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2018-12-07
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多