【问题标题】:Convert doc/docx to semantic HTML将 doc/docx 转换为语义 HTML
【发布时间】:2023-04-06 22:51:01
【问题描述】:

我想将 doc/docx 文档转换为语义 HTML。

一些愿望/要求:

  1. 语义 HTML,文档中的标题是

    等,表格是

    等等。
  2. 最好能处理标题、列表、表格和图像。图表和数学公式是一个不错的附加功能。

  3. • 不必直接从 doc/docx 转换为 html,可以使用中间格式,例如 xml 或 docbook。

    • 应该以编程方式工作,并处理大量文档。

    到目前为止,我找到的最接近解决方案的是http://holloway.co.nz/docvert/index.html,但不幸的是有很多错误,用户群很小,它无法处理大量文档。更多的是概念证明。

    【问题讨论】:

    标签: html xml ms-word docx docbook


    【解决方案1】:

    我编写了一个实用程序来实现您列出的要求,不包括图像、图表和数学公式。它是 beta 质量(即,它可以在我的机器上运行)。我发布在http://www.modeltext.com/word

    【讨论】:

      【解决方案2】:

      只是更多的想法。

      使用 Gmail 转换 word 文档

      http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html

      【讨论】:

        【解决方案3】:

        docx4j(仅用于 docx,不用于 doc)编写干净的 HTML 输出。如果您想要

        而不是

        ,则需要稍作改动,但它是开源的,因此您可以这样做。

        【讨论】:

          【解决方案4】:

          " 文档中的标题是 " 我认为这是不可能的。 因为MS Word只记下结果,<p>的不同风格 就像纸上的印刷文字一样,原始信息不会被记录下来。

          您的其他愿望可以实现。 有两个商业工具可以做到这一点 (不要相信那些免费工具或在线工具,它们不会做真正的工作。)

          Zapadoo 的 1 Word Cleaner www.zapadoo.com
          2 Wonder Studio 的 Word 的 HTML 清理器 www.htmlcleaner.com

          我更喜欢去年刚刚发布的第二个。两个都可以试试。

          【讨论】:

            【解决方案5】:

            有一个名为upCast 的工具能够将Word 文档转换为XML。

            【讨论】:

            • upCast 是正确的方向,虽然不是我正在寻找的。我仍在搜索,因此不胜感激。但是,我想将“答案”授予某人并选择了这个。
            猜你喜欢
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 2016-06-22
            • 1970-01-01
            • 2011-06-16
            • 2012-05-17
            相关资源
            最近更新 更多