【发布时间】:2011-01-18 19:52:12
【问题描述】:
是否有可靠的方法从 PDF 中提取文本?想到的第一个想法是 PDF 可能有多个列,提取机制需要以某种方式知道逻辑结构。我知道一些 PDF 文档被“标记”,但我需要支持几乎所有 PDF 文档。
这里有任何第三方组件来救援吗?
【问题讨论】:
是否有可靠的方法从 PDF 中提取文本?想到的第一个想法是 PDF 可能有多个列,提取机制需要以某种方式知道逻辑结构。我知道一些 PDF 文档被“标记”,但我需要支持几乎所有 PDF 文档。
这里有任何第三方组件来救援吗?
【问题讨论】:
【讨论】:
有些 PDF 是扫描的,因此需要 OCR(至少可以说不容易)。
一些 PDF 是压缩的,而另一些(很少)是纯 PDF。
PDF 文件格式本身是有据可查的,但如果要从除了简单的单列文档之外的任何内容中提取正确的“结构”,您的要求就很高了。 PDF 在内部表示,如果每一行文本都以绝对定位方式定位在 DIV 中,HTML 的外观。
【讨论】: