【发布时间】:2015-06-15 18:10:48
【问题描述】:
我们正在使用 PDFBox 从 PDF 中提取文本。
某些 PDF 的文本无法正确提取。 下图将 PDF 中的一部分显示为图像:
文本提取后,我们得到以下文本:
3, 8 5 EU R 1 Netto 38,50 EUR 4,00
(',' 和 '8' 之间添加空格)
这是我们的代码:
PDDocument pdf = PDDocument.load(reuseableInputStream);
PDFTextStripper pdfStripper = new PDFTextStripper();
pdfStripper.setSortByPosition(true);
String text = pdfStripper.getText(pdf);
我们尝试使用 PDFTextStripper 属性“AverageCharTolerance”和“SpacingTolerance”,但没有任何积极影响。
替代库“iText”正确提取文本,字符之间没有空格。但由于许可证问题,我们不能使用它。
有什么想法吗?谢谢。
编辑:我们使用的是 1.8.9 版。我们还尝试了快照版本 2.0.0,但没有任何效果。
【问题讨论】:
-
你能分享一个示例 PDF 吗?这样我们就可以看到文件中是否真的有空格字符(即使它们可能不显示)。
-
此文件为客户文件,对不起。我被禁止分享这些文件:/
-
禁止共享此文档 - 恐怕在这种情况下,这里没有什么可做的。
-
我现在可以分享一个示例 PDF。请通过电子邮件与我联系 tobias.holke@trustpact.com。我将通过电子邮件发送。
-
您可以在我的个人资料中找到我的电子邮件地址,只需点击mkl。
标签: pdfbox text-extraction pdf-parsing