【问题标题】:how to convert pdf scanned image to high resolution tiff with best for ocr?如何将 pdf 扫描图像转换为最适合 ocr 的高分辨率 tiff?
【发布时间】:2018-10-26 02:06:19
【问题描述】:

我使用 image magick 将 pdf 转换为 tiff 图像, 文件大小从 500kb 到 4.6mb。

问题是 tiff 图像中的转换效果不好。有些文字难以阅读。

这是我在 cli 中的简单命令

convert \
pph.pdf \
pph-psd.tiff

PDF 扫描图像:

Tiff 图像:

为什么会发生这种情况以及如何将 pdf 扫描图像转换为最适合 ocr 的高分辨率 tiff?

【问题讨论】:

    标签: pdf imagemagick tiff


    【解决方案1】:

    发生这种情况是因为 ImageMagick 是一个光栅图像处理器,它使用默认的 72dpi 网格对您的 PDF 进行了光栅化 - 这对于您的需要来说太粗糙了。您需要在光栅化之前设置更高的密度:

    convert -density 288 input.pdf -compress lzw result.tiff
    

    您最好安装 Poppler 工具并使用其pdfimages 工具来提取图像。

    【讨论】:

      【解决方案2】:

      如果您愿意,可以尝试对我有用的 Coolutils TotalPDFConverter。

      【讨论】:

        猜你喜欢
        • 2011-09-30
        • 1970-01-01
        • 1970-01-01
        • 2017-02-18
        • 1970-01-01
        • 2011-12-01
        • 1970-01-01
        • 2017-07-01
        • 1970-01-01
        相关资源
        最近更新 更多