【发布时间】:2023-04-06 22:51:01
【问题描述】:
我想将 doc/docx 文档转换为语义 HTML。
一些愿望/要求:
-
语义 HTML,文档中的标题是
、
等,表格是
等等。
最好能处理标题、列表、表格和图像。图表和数学公式是一个不错的附加功能。
• 不必直接从 doc/docx 转换为 html,可以使用中间格式,例如 xml 或 docbook。
• 应该以编程方式工作,并处理大量文档。
到目前为止,我找到的最接近解决方案的是http://holloway.co.nz/docvert/index.html,但不幸的是有很多错误,用户群很小,它无法处理大量文档。更多的是概念证明。
【问题讨论】:
标签: html xml ms-word docx docbook