【发布时间】:2011-01-25 02:48:52
【问题描述】:
以编程方式检查 PDF 文件是否为全扫描文件的最佳方法是什么? 我确实可以使用 iText 和 PDFBox。我可以检查一个 pdf 文件是否包含文本,并根据结果来决定这个文件是否是 OCRed,但这个解决方案并不是 100% 准确的。我想知道是否有其他方法可以解决这个问题。
如您所知,解决方案必须基于 Java。
【问题讨论】:
-
哎呀。这听起来像是一个研究生或博士水平的研究项目,特别是因为扫描的文档中可能也有可用的文本。祝你好运!
-
OCRed pdf 将包含文本,这是光学字符识别的重点。
-
当您说完全扫描时,您是什么意思?文档中的所有内容都是图像?一切都被扫描然后用OCR变成文本?如果我用数码相机拍照,然后将该照片粘贴到 Word 中,然后打印到 PDF,这算作“扫描”图像吗?
-
Peter,在我的情况下,嵌入图像转换为 pdf 的 Word 文档不是 OCRed pdf。例如,OCRed pdf 是一本经过扫描然后保存为 pdf 文件的书。
-
无论如何,谢谢所有回答我问题的人,你们给了我宝贵的建议。现在我有了一个起点。亚历克斯