【发布时间】:2010-09-26 09:59:40
【问题描述】:
开源实现将是首选。
【问题讨论】:
-
我也想知道一个解决方案。 PDFBox 能够做到这一点 (java.dzone.com/articles/…),但方式非常有限。
开源实现将是首选。
【问题讨论】:
显然,这不是一件容易的事,PDF 格式比 HTML 格式要丰富得多(而且您必须提取图像并链接它们等)。
简单的文本提取要简单得多(虽然不是微不足道的......)。
我在您问题的侧边栏中看到了一个类似的问题:Converting PDF to HTML with Python 指向一个库(poppler,它显然是用 C++ 编写的,也许可以使用 JNI/JNA 访问)和一个提供更多答案的相关问题。
【讨论】:
尝试使用来自 apache 基金会的PDFBox。
【讨论】: