【问题标题】:Library to convert Word document text to HTML [closed]将 Word 文档文本转换为 HTML 的库 [关闭]
【发布时间】:2011-04-27 09:38:02
【问题描述】:

是否有 .Net 开源库可以将 word 文档转换为 HTML 以显示在网页中。

我知道几种将 word 文档转换为 html 文件的工具,但我的要求是在 ASP.Net 应用程序中动态地将文档(从文件或提取的文本)转换为 HTML。

我发现converting-a-word-document-into-usable-html-in-php PHP 库做同样的事情,.net 中有没有类似的工具?

【问题讨论】:

  • 为什么不转换成文件,然后读取HTML文件呢?
  • 如果没有办法,这是最后的选择,目前我们将 doc 作为 blob 存储在 db 中,因此将其转换为 HTML 字符串比将 blob 作为 doc 存储到文件系统并启动更方便word interop 保存为 html,然后从应用程序中读取...

标签: c# asp.net html ms-word


【解决方案1】:

您只想将 *.doc 文件转换为 HTML?是否可以将其保存为 HTML 文件?

有标准的.SaveAs 方法可以选择另存为HTML:

wdFormatHTML 使用 HTML 标记保存所有文本和格式,以便可以在 Web 浏览器中查看生成的文档。

来自:MSDN SaveAs Method

有关如何使用该方法将 .doc 转换为不同格式的示例教程,您可以在此处找到:How to convert DOC into other formats using C#

如果您有 *.docx 文件而不是 *.doc 文件,那就更容易了,因为您可以使用 OpenXML API,就像 MSDN 上解释的那样:Manipulating Word 2007 Files with the Open XML Format API (Part 1 of 3)。如果您获得 Word 文件的 XML,您当然可以将其输出为您想要的任何格式 (HTML)。

【讨论】:

  • 是的,我知道这个解决方案..
  • 好。它回答了你的问题还是我错过了什么?
【解决方案2】:

JOdConverter 和 OpenOffice 的帮助下将您的 doc 文件转换为 pdf

参考How to convert ppt to images in Ruby?

然后使用 pdftohtml (http://pdftohtml.sourceforge.net) 一个将 PDF 文件转换为 HTML 的实用程序。

你会得到惊人的结果。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-03-02
    • 1970-01-01
    • 2011-01-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多