是否有任何用于将文档从 pdf 转换为 html 的 java 库？

【问题标题】：Is there any java library for converting document from pdf to html?是否有任何用于将文档从 pdf 转换为 html 的 java 库？
【发布时间】：2010-09-26 09:59:40
【问题描述】：

开源实现将是首选。

【问题讨论】：

我也想知道一个解决方案。 PDFBox 能够做到这一点 (java.dzone.com/articles/…)，但方式非常有限。

标签： java html pdf

【解决方案1】：

只有我知道的才需要付费。

BFO
JPedal

【讨论】：

【解决方案2】：

显然，这不是一件容易的事，PDF 格式比 HTML 格式要丰富得多（而且您必须提取图像并链接它们等）。
简单的文本提取要简单得多（虽然不是微不足道的......）。
我在您问题的侧边栏中看到了一个类似的问题：Converting PDF to HTML with Python 指向一个库（poppler，它显然是用 C++ 编写的，也许可以使用 JNI/JNA 访问）和一个提供更多答案的相关问题。

【讨论】：

【解决方案3】：

尝试使用来自 apache 基金会的PDFBox。

【讨论】：