【问题标题】:How to convert .doc files to HTML?如何将 .doc 文件转换为 HTML?
【发布时间】:2014-08-10 02:44:41
【问题描述】:

我有一堆 .doc 文件(不是 .docx),我想将它们转换成 HTML 文件。

我也尝试过 Python 的 docx2html 模块,但它只支持 .docx 文件,不支持 doc。

那么我该如何实现呢?

【问题讨论】:

  • 使用 COM 将所有 .doc 文件转换为 .docx 文件应该相当简单(如果您在 Windows 上)
  • @wnnmaw 你能详细说明它是如何实现的吗?
  • This question 介绍了如何将 .doc 转换为 .pdf,您应该能够通过将 wdFormatPDF 替换为来自 here 的适当常量来适应转换为 .doc 跨度>
  • wdFormatDocument97 和 0 值是您要查找的值
  • 只需将您的 doc 文件转换为 docx。你可能想看看这个。 stackoverflow.com/questions/1596911/…

标签: python doc


【解决方案1】:

我通过使用 subprocess.call 将 LibreOffice 的 soffice 调用到我的 Python 模块中解决了这个问题。使用soffice,可以直接将doc转换成html

但我必须告知,使用此解决方案,outputfile.html 可能会丢失一些格式样式。 就我而言,它保留了对我来说必不可少的字体、字体大小和运行(粗体、斜体等)。

import subprocess

# Assuming `filename` has already been assigned for input file name
subprocess.call(['soffice', '--headless', '--convert-to', 'html', filename])

这将生成一个同名的html文档,在同一个目录中。

如果有必要,您可以继续使用一些 CSS 重新设置 .html 文件的样式。

【讨论】:

    猜你喜欢
    • 2011-05-25
    • 1970-01-01
    • 2013-02-09
    • 1970-01-01
    • 1970-01-01
    • 2012-04-14
    • 2018-12-07
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多