【问题标题】:Convert RTF into XML using Java使用 Java 将 RTF 转换为 XML
【发布时间】:2020-02-20 23:05:22
【问题描述】:

我有一个富文本文档(.rtf 或 .doc),其中包含许多需要读取并转换为 XML 或 Json 结构化数据对象的数据元素。这些文档在数据方面具有一定的格式。是否有任何库可用于使用 java 进行转换。有没有人遇到过这种情况?

有没有人试过用 Apache POI 或 Apache Tika 转换成 XML

【问题讨论】:

  • 为什么不先找到合适的工具,然后弄清楚如何调用它呢?因为这听起来 100% 像 pandoc.org 的工作
  • 嗨,迈克,作为批处理作业的一部分,我们需要系统地执行此操作。因此,我们必须选择 java、perl、shell 等编程技术中的一种
  • 如果您需要将此作为自动化步骤,那么在 in java 中进行转换有点疯狂。在 shell 脚本中调用 pandoc 会更有意义,然后拥有相同的 shell 脚本,然后运行您编写的任何 java 程序以进一步处理 XML(如果您甚至需要一个,因为您可以使用独立的 XLST 转换器也可以使用,如撒克逊等)

标签: java xml etl rtf data-transform


【解决方案1】:

我会把这个任务分成两个解析器和两个序列化器

  1. 将 rtf 解析为 java 模型
  2. 将文档解析为 java 模型
  3. 将 java 模型序列化为 xml
  4. 将 java 模型序列化为 json

对于 1 和 2,使用 POI 非常标准。 对于 3&4,你有更多的选择,一个流行的选择是 Jackson

【讨论】:

  • 非常感谢。让我尝试使用 POI 将 doc 解析为 java。同意,一旦我们有了 Java 模型,就很容易转换为 xml/json。
  • 我确实尝试过使用 POI,但所有这些都转换为字符串,看起来我们可能必须将字符串转换手动编码为结构化的 java 对象。知道如何实现吗?
【解决方案2】:

我建议查看RTF Parser Kit,您可以使用它来填充适合进一步处理或持久性的 Java 数据结构。

【讨论】:

    猜你喜欢
    • 2014-11-15
    • 2014-04-18
    • 1970-01-01
    • 2016-09-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-04-11
    • 2010-10-27
    相关资源
    最近更新 更多