用于将 TIFF 批量转换为可索引 PDF 的命令行软件答案

【问题标题】：Command line software to batch convert TIFF to indexable PDF用于将 TIFF 批量转换为可索引 PDF 的命令行软件
【发布时间】：2012-06-03 19:49:46
【问题描述】：

我需要一个实用程序来将 TIFF 文件批量转换为可索引的 PDF。该软件需要在 linux 上运行，并且必须从命令行运行。该软件不需要是开源的。我已经尝试使用 tesseract 和 hocr2pdf 进行转换，但是它们会生成带有乱码文本的 PDF（注意：只有在 PDF 中“全选”文本时，文本才会出现乱码）。我找到了其他实用程序，但它们只能在 Windows 下运行，或者不能从命令行运行。提前致谢。

【问题讨论】：

也许this 可以帮忙
正如我在问题中提到的，我已经编写了一个程序来使用 tesseract 和 hocr2pdf 进行转换。据我所知，hocr2pdf 是唯一能够制作可索引 PDF 文档的开源工具。抱歉，您的链接没有概述任何我不知道的内容。
这里有两个问题 - 完成 OCR，然后转换为 PDF。我想知道如果您先将您的 TIFF OCR 转换为纯文本，然后您可以使用 wkhtmltopdf 之类的东西将其转换为 PDF，是否会更容易搜索问题？
也是一个很好的建议，但是，wkhtmltopdf 不保持原始文档的完整性。它只使用原始 TIFF 文件中的文本创建一个新的 PDF。

标签： pdf indexing ocr tiff document-conversion

【解决方案1】：

Mogrify 应该可以帮到你：

http://linux.die.net/man/1/mogrify

【讨论】：

我没有看到使转换后的图像可索引的选项。你能提供一个示例用法吗？

【解决方案2】：

这正是你要找的东西：

http://ocr4linux.com/en:start

基于 ABBYY 市场上最好的 OCR 的 Linux 命令行 OCR 工具。（免责声明：我为 ABBYY 工作）

【讨论】：

谢谢，但我试过购买这个软件，但我的体验很糟糕。销售人员甚至花了几天的时间才做出回应，我的报价是网站上列出的两倍。显然，他们对欧洲和美国的人有不同的定价。
为什么不直接在网上购买？销售人员不经常与此产品打交道，有时可能会造成混乱

【解决方案3】：

这个答案是倾斜的，只是部分的。如果它不适用于您，请忽略。

可能有这样的软件，但我不熟悉。如果您的需求足够强大以至于您将编写 2000 行左右的代码来满足它，那么可以使用面向 Linux 的 Libpoppler,，它为您提供了编写程序来制作自己的自定义 PDF 的界面，就像这样你想要它。不幸的是，Libpoppler 虽然很有价值，但编写代码并不是特别愉快；而且，不幸的是，如果您对其进行编码，那么您可能会发现自己正在阅读大量的the PDF standard.

如果您确实编写过此类软件，您可能会考虑将其作为开源软件发布。

祝你好运。

【讨论】：

【解决方案4】：

在尝试了几种工具（包括 Abbyy）后，我决定：Vividata。它们价格合理，在 Linux 下运行，并且没有每年一页的限制。

【讨论】：

【解决方案5】：

我编写了一个使用 Tesseract 3 或 Abbyy OCR 11 的 bash 脚本。可以批量转换，也可以在目录监控模式下运行。

你的情况

pmocr.sh --batch --target=PDF /path/to/tiff/files

在此处查看脚本： https://github.com/deajan/pmOCR

【讨论】：