【发布时间】:2012-08-30 20:40:07
【问题描述】:
我使用 ghostscript 使用 C$ 类包装器将 PDF 转换为 Tif,然后使用 OCR tessnet2 读取图像文件的内容,但是 tif 图像几乎不可读,图像非常褪色并且看起来不正确并且OCR 引擎无法读取任何内容。是否有任何开源或库可以花费我几美元来将 PDF 转换为高质量的 TIf?或任何读取 PDF 的开源 OCR 引擎,因为 tessnet2 无法读取 PDF。
【问题讨论】:
-
原始PDF是图片的集合吗?因为如果不是,我认为你的做法是错误的。普通的PDF已经包含了你需要的文本;您的方法应该是直接从 PDF 中提取文本,而不是尝试从 PDF 的图片中对其进行 OCR。
-
一段字符串有多长?像往常一样,在我们看到有问题的 pdf 文件之前,不可能知道发生了什么。
-
在这种情况下,它听起来像是已转换为 pdf 的低质量扫描图像。在使用 OCR 之前,可能需要进行一些图像预处理,例如去歪斜、去斑、边缘增强、阈值处理。 OCR 输出质量与输入质量直接相关。垃圾进=垃圾出。提高图像质量将产生最佳效果。许多基于图像的 PDF 没有隐藏的文本层,但许多的 OCR 数据确实很差。