时间：2019-01-01 标签：c#convert PDF to Tiff答案

【问题标题】：c# converting PDF to Tif时间：2019-01-01 标签：c#convert PDF to Tiff
【发布时间】：2012-08-30 20:40:07
【问题描述】：

我使用 ghostscript 使用 C$ 类包装器将 PDF 转换为 Tif，然后使用 OCR tessnet2 读取图像文件的内容，但是 tif 图像几乎不可读，图像非常褪色并且看起来不正确并且OCR 引擎无法读取任何内容。是否有任何开源或库可以花费我几美元来将 PDF 转换为高质量的 TIf？或任何读取 PDF 的开源 OCR 引擎，因为 tessnet2 无法读取 PDF。

【问题讨论】：

原始PDF是图片的集合吗？因为如果不是，我认为你的做法是错误的。普通的PDF已经包含了你需要的文本；您的方法应该是直接从 PDF 中提取文本，而不是尝试从 PDF 的图片中对其进行 OCR。
一段字符串有多长？像往常一样，在我们看到有问题的 pdf 文件之前，不可能知道发生了什么。
在这种情况下，它听起来像是已转换为 pdf 的低质量扫描图像。在使用 OCR 之前，可能需要进行一些图像预处理，例如去歪斜、去斑、边缘增强、阈值处理。 OCR 输出质量与输入质量直接相关。垃圾进=垃圾出。提高图像质量将产生最佳效果。许多基于图像的 PDF 没有隐藏的文本层，但许多的 OCR 数据确实很差。

标签： c# ocr

【解决方案1】：

正如 DaNet 所说，我不确定是否有任何开源 DLL 或免费方法可以做到这一点。我们使用了一个名为leadtools 的第三方工具包，它在OCR PDF 文档时为我们提供了非常好的结果。您可以使用它对图像进行一些处理（即对其进行二值化、从图像中删除不需要的点、将其转换为 1 位黑白、将其保存为 TIF 图像等），然后将其传递给他们的 OCR引擎。我知道他们有一个在线演示，你可以试试。这是演示的链接： http://demo.leadtools.com/OnlineRecognitionDemo

如果结果符合您的要求，您可以查看本教程： Scanning to Searchable PDF

【讨论】：

【解决方案2】：

我不确定开源 OCR，但如果您使用 ghostscript 生成的 tiff 的分辨率输出，您应该没有问题。

尝试将 -r150 添加到 ghostscript 包装器的“字符串 args”，以更改分辨率并希望得到一个合适大小的兆字节文件！

【讨论】：

我不得不将 imageMagicNET 类输出格式的属性更改为 png16m 和 DPI，以便生成的图像质量高且 OCR 引擎可读
很高兴知道我何时尝试 OCR！

【解决方案3】：

我不得不将 imageMagicNET 类输出格式的属性更改为 png16m 和 DPI，以便生成的图像质量高且 OCR 引擎可读

【讨论】：