【发布时间】:2013-07-09 21:39:29
【问题描述】:
我正在编写一个使用 OCR (tessnet2) 扫描图像文件并提取某些信息的程序。在我发现要从 Exchange 服务器扫描 PDF 附件之前,这很容易。
我正在处理的第一个问题是如何将我的 PDF 转换为 BMP 文件。就我目前所知的 TessNet2 而言,它只能读取图像文件——特别是 BMP。所以我现在的任务是将不确定大小(2 - 15 页)的 PDF 转换为 BMP 图像。完成后,我可以使用我已经用 TessNet2 构建的代码轻松扫描每个图像。
我见过一些使用 Ghostscript 来完成这项任务的东西 - 我只是想知道是否还有其他免费的解决方案,或者你们中的某个优秀的人是否可以给我一个关于如何使用 Ghostscript 完成这项任务的速成课程。
【问题讨论】:
-
为什么不直接使用 Ghostscript 或 iTextSharp,或 SharpPdf 或其他一些免费的 PDF 库来打开 pdf 并直接获取文本?
-
因为 PDF 是我们的传真机接收到的图像,作为 TIFF 文件扫描到我们的系统中,然后打包为 PDF。所以我必须使用 OCR 来读取信息……这有时非常粗略。
-
我相信它们都不是免费的商业用途。我是 Ghostscript 的新手,它对商业应用程序免费吗?这个链接有很多术语,我觉得他们中的大多数人认为它对商业应用程序不是免费的 - artifex.com/page/licensing-information.html 有什么想法吗?
标签: c# pdf ghostscript bmp tessnet2