【问题标题】:Command line software to batch convert TIFF to indexable PDF用于将 TIFF 批量转换为可索引 PDF 的命令行软件
【发布时间】:2012-06-03 19:49:46
【问题描述】:

我需要一个实用程序来将 TIFF 文件批量转换为可索引的 PDF。该软件需要在 linux 上运行,并且必须从命令行运行。该软件不需要是开源的。我已经尝试使用 tesseract 和 hocr2pdf 进行转换,但是它们会生成带有乱码文本的 PDF(注意:只有在 PDF 中“全选”文本时,文本才会出现乱码)。我找到了其他实用程序,但它们只能在 Windows 下运行,或者不能从命令行运行。提前致谢。

【问题讨论】:

  • 也许this 可以帮忙
  • 正如我在问题中提到的,我已经编写了一个程序来使用 tesseract 和 hocr2pdf 进行转换。据我所知,hocr2pdf 是唯一能够制作可索引 PDF 文档的开源工具。抱歉,您的链接没有概述任何我不知道的内容。
  • 这里有两个问题 - 完成 OCR,然后转换为 PDF。我想知道如果您先将您的 TIFF OCR 转换为纯文本,然后您可以使用 wkhtmltopdf 之类的东西将其转换为 PDF,是否会更容易搜索问题?
  • 也是一个很好的建议,但是,wkhtmltopdf 不保持原始文档的完整性。它只使用原始 TIFF 文件中的文本创建一个新的 PDF。

标签: pdf indexing ocr tiff document-conversion


【解决方案1】:

Mogrify 应该可以帮到你:

http://linux.die.net/man/1/mogrify

【讨论】:

  • 我没有看到使转换后的图像可索引的选项。你能提供一个示例用法吗?
【解决方案2】:

这正是你要找的东西:

http://ocr4linux.com/en:start

基于 ABBYY 市场上最好的 OCR 的 Linux 命令行 OCR 工具。 (免责声明:我为 ABBYY 工作)

【讨论】:

  • 谢谢,但我试过购买这个软件,但我的体验很糟糕。销售人员甚至花了几天的时间才做出回应,我的报价是网站上列出的两倍。显然,他们对欧洲和美国的人有不同的定价。
  • 为什么不直接在网上购买?销售人员不经常与此产品打交道,有时可能会造成混乱
【解决方案3】:

这个答案是倾斜的,只是部分的。如果它不适用于您,请忽略。

可能有这样的软件,但我不熟悉。如果您的需求足够强大以至于您将编写 2000 行左右的代码来满足它,那么可以使用面向 Linux 的 Libpoppler,,它为您提供了编写程序来制作自己的自定义 PDF 的界面,就像这样你想要它。不幸的是,Libpoppler 虽然很有价值,但编写代码并不是特别愉快;而且,不幸的是,如果您对其进行编码,那么您可能会发现自己正在阅读大量的the PDF standard.

如果您确实编写过此类软件,您可能会考虑将其作为开源软件发布。

祝你好运。

【讨论】:

    【解决方案4】:

    在尝试了几种工具(包括 Abbyy)后,我决定:Vividata。它们价格合理,在 Linux 下运行,并且没有每年一页的限制。

    【讨论】:

      【解决方案5】:

      我编写了一个使用 Tesseract 3 或 Abbyy OCR 11 的 bash 脚本。 可以批量转换,也可以在目录监控模式下运行。

      你的情况

      pmocr.sh --batch --target=PDF /path/to/tiff/files
      

      在此处查看脚本: https://github.com/deajan/pmOCR

      【讨论】:

        猜你喜欢
        • 2015-01-20
        • 1970-01-01
        • 2023-03-06
        • 2011-07-06
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多