【问题标题】:c# converting PDF to Tif时间:2019-01-01 标签:c#convert PDF to Tiff
【发布时间】:2012-08-30 20:40:07
【问题描述】:

我使用 ghostscript 使用 C$ 类包装器将 PDF 转换为 Tif,然后使用 OCR tessnet2 读取图像文件的内容,但是 tif 图像几乎不可读,图像非常褪色并且看起来不正确并且OCR 引擎无法读取任何内容。是否有任何开源或库可以花费我几美元来将 PDF 转换为高质量的 TIf?或任何读取 PDF 的开源 OCR 引擎,因为 tessnet2 无法读取 PDF。

【问题讨论】:

  • 原始PDF是图片的集合吗?因为如果不是,我认为你的做法是错误的。普通的PDF已经包含了你需要的文本;您的方法应该是直接从 PDF 中提取文本,而不是尝试从 PDF 的图片中对其进行 OCR。
  • 一段字符串有多长?像往常一样,在我们看到有问题的 pdf 文件之前,不可能知道发生了什么。
  • 在这种情况下,它听起来像是已转换为 pdf 的低质量扫描图像。在使用 OCR 之前,可能需要进行一些图像预处理,例如去歪斜、去斑、边缘增强、阈值处理。 OCR 输出质量与输入质量直接相关。垃圾进=垃圾出。提高图像质量将产生最佳效果。许多基于图像的 PDF 没有隐藏的文本层,但许多的 OCR 数据确实很差。

标签: c# ocr


【解决方案1】:

正如 DaNet 所说,我不确定是否有任何开源 DLL 或免费方法可以做到这一点。我们使用了一个名为leadtools 的第三方工具包,它在OCR PDF 文档时为我们提供了非常好的结果。您可以使用它对图像进行一些处理(即对其进行二值化、从图像中删除不需要的点、将其转换为 1 位黑白、将其保存为 TIF 图像等),然后将其传递给他们的 OCR引擎。 我知道他们有一个在线演示,你可以试试。这是演示的链接: http://demo.leadtools.com/OnlineRecognitionDemo

如果结果符合您的要求,您可以查看本教程: Scanning to Searchable PDF

【讨论】:

    【解决方案2】:

    我不确定开源 OCR,但如果您使用 ghostscript 生成的 tiff 的分辨率输出,您应该没有问题。

    尝试将 -r150 添加到 ghostscript 包装器的“字符串 args”,以更改分辨率并希望得到一个合适大小的兆字节文件!

    【讨论】:

    • 我不得不将 imageMagicNET 类输出格式的属性更改为 png16m 和 DPI,以便生成的图像质量高且 OCR 引擎可读
    • 很高兴知道我何时尝试 OCR!
    【解决方案3】:

    我不得不将 imageMagicNET 类输出格式的属性更改为 png16m 和 DPI,以便生成的图像质量高且 OCR 引擎可读

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-08-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-04-11
      • 2018-01-03
      • 1970-01-01
      相关资源
      最近更新 更多