【发布时间】:2011-05-14 13:54:50
【问题描述】:
我正在尝试将 pdf 转换为 tiff 图像以进行 OCR。我使用“-density 300x300 -depth 8”作为参数。 第一个问题是我从 500 KB 的 pdf 文件中得到 72 MB 的 tiff 文件。 第二个问题是导致 OCR 失败的结果图像质量差。 在这里你可以自己看看。 Adobe acrobat 阅读器生成(打印)tiff 图像:
ImageMagick tiff 图像:
差别很大。 如何使用 ImageMagick 获得与 Adobe 生成的图像一样好的效果? 不需要tiff,其他格式也可以。
UPD:我找到了“antialias”选项。现在好多了。 但是 OCR 结果仍然不如 Adobe 版本准确。
【问题讨论】:
-
其实 Adobe 的更差,因为它没有抗锯齿,而且看起来像素化了很多。
-
对于人类 - 是的。但是对于 Tesseract,Adobe 版本是最好的。
-
为什么要将双层图像转换为 8 位灰度(-depth 8)?如果您只需要将格式从 PDF 更改为 TIFF 并且不更改图像数据,请将位深度保留为原始。
-
这是为 Tesseract 准备的。否则它将失败,说不支持图像格式。
-
为什么要将文本转换为图像,然后将生成的图像转换为文本?也许从 PDF 中提取文本会更适合您的需求?
标签: command-line imagemagick tiff ghostscript adobe-reader