【发布时间】:2015-11-10 07:35:42
【问题描述】:
问题:我有一个包含许多子文件夹的大文件夹,其中包含许多 pdf。其中一些已经有 OCR。其中一些没有。所以我想写一个Java程序来过滤掉非OCR PDF并将它们复制到一个热文件夹中。
我测试了 20 个文档,它们的共同点是,如果你用编辑器打开它们,你可以找到“字体”这个词和 OCR 词,而在非 OCR 词中则找不到。我现在的问题是:如何使用 PDFbox 2.0.0 实施此检查?我发现的所有解决方案似乎都不适用于旧版本。而且我无法在文档中找到解决方案。 (这显然是我的错)
提前致谢。
【问题讨论】:
-
这两种类型的文件是否来自相同的来源(例如相同的扫描软件)?如果是,那么它可能会起作用;如果没有,它不会。检查是否有字体就是这个意思。
-
将带有 OCR 的扫描文档与不带 OCR 的扫描文档分开的最合理方法是尝试文本提取,参见。
PDFTextStripper类和相关示例。如果此类在 PDF 中发现大量文本,则它不仅仅是扫描的。 -
@TilmanHausherr 是的,所有带有 OCR 的文件都是用 Abby 转换的。
标签: java apache pdf ocr pdfbox