【发布时间】:2011-09-05 08:10:42
【问题描述】:
我正在寻找可以执行以下操作的 Java 库:
解析 *.eml 或 *.msg 格式的电子邮件以获取 DOC、DOCX、JPEG、PNG、GIF、TXT、XLS、XLSX、PPT、PDF 类型的附件,并将附件转换为 TIFF 格式。
它可以是开源的,也可以是商业库。或者,我正在寻找用于 linux 的命令行工具来执行此操作。我们已经尝试过开放式办公,但是某些文档格式存在太多问题。
更新:
到目前为止我通过研究发现的:
对于解析电子邮件和提取附件,JavaMail (http://www.oracle.com/technetwork/java/javamail/index.html) 是一个不错的选择。
对于转换文档,JodConverter (http://code.google.com/p/jodconverter/) 是一个舒适的库。但是它只是 open office 的包装,所以如果 open office 有问题(我确实经常遇到 openoffice 问题)来转换文档,你也可以使用 JodConcerter。
总之,我没有运气(到目前为止)找到任何用本机 java 实现的文档转换库,它处理所有常见的文档格式,既不是开源的,也不是商业的。这似乎是一个真正的市场缺口。
【问题讨论】:
-
我知道有一些工具可以立即将图像文件转换为 TIFF,因此您可以放心使用。现在,您可以从 DOC 到 ODF 到 PDF 到 TIFF。与 XLS 和 PDF 类似。至于将这些工具串在一起......
-
从功能集中这个库 coolutils.com/TotalMailConverter 可以满足我的需要,不幸的是它不是 java。
-
我在artofsolving.com/opensource/jodconverter/adoption 找到了一些东西,但它看起来有点过时了,我会检查一下
标签: java linux parsing document converter