【发布时间】:2020-02-20 23:05:22
【问题描述】:
我有一个富文本文档(.rtf 或 .doc),其中包含许多需要读取并转换为 XML 或 Json 结构化数据对象的数据元素。这些文档在数据方面具有一定的格式。是否有任何库可用于使用 java 进行转换。有没有人遇到过这种情况?
有没有人试过用 Apache POI 或 Apache Tika 转换成 XML
【问题讨论】:
-
为什么不先找到合适的工具,然后弄清楚如何调用它呢?因为这听起来 100% 像 pandoc.org 的工作
-
嗨,迈克,作为批处理作业的一部分,我们需要系统地执行此操作。因此,我们必须选择 java、perl、shell 等编程技术中的一种
-
如果您需要将此作为自动化步骤,那么在 in java 中进行转换有点疯狂。在 shell 脚本中调用 pandoc 会更有意义,然后拥有相同的 shell 脚本,然后运行您编写的任何 java 程序以进一步处理 XML(如果您甚至需要一个,因为您可以使用独立的 XLST 转换器也可以使用,如撒克逊等)
标签: java xml etl rtf data-transform