【发布时间】:2009-04-21 14:43:29
【问题描述】:
我希望能够阅读 pdf 文件的内容。我需要在 Linux 上使用 C 来完成。
我越接近这个是here,但我认为 Haru 只能创建 pdf 并且无法阅读它们(不是 100% 肯定)。
PS:我只需要pdf中的纯文本
【问题讨论】:
我希望能够阅读 pdf 文件的内容。我需要在 Linux 上使用 C 来完成。
我越接近这个是here,但我认为 Haru 只能创建 pdf 并且无法阅读它们(不是 100% 肯定)。
PS:我只需要pdf中的纯文本
【问题讨论】:
查看libpoppler。我从来没有用它来提取文本,只是查询 PDF 属性。它非常易于使用。
【讨论】:
你需要多好地解析它们? 仅提取字符串应该相对容易,完全准确的渲染更难。 看看 evince 或 ghostscript 的来源?
这是针对 C++ 的,但可能是理解 PDF 结构的一个很好的起点http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx(抱歉之前的链接错误)
【讨论】:
VersyPDF 是另一种可能,虽然我从未使用过。它声称允许您编辑 PDF ...http://versypdf.sybrex-systems-ltd.qarchive.org/
【讨论】: