【发布时间】:2012-06-03 19:49:46
【问题描述】:
我需要一个实用程序来将 TIFF 文件批量转换为可索引的 PDF。该软件需要在 linux 上运行,并且必须从命令行运行。该软件不需要是开源的。我已经尝试使用 tesseract 和 hocr2pdf 进行转换,但是它们会生成带有乱码文本的 PDF(注意:只有在 PDF 中“全选”文本时,文本才会出现乱码)。我找到了其他实用程序,但它们只能在 Windows 下运行,或者不能从命令行运行。提前致谢。
【问题讨论】:
-
也许this 可以帮忙
-
正如我在问题中提到的,我已经编写了一个程序来使用 tesseract 和 hocr2pdf 进行转换。据我所知,hocr2pdf 是唯一能够制作可索引 PDF 文档的开源工具。抱歉,您的链接没有概述任何我不知道的内容。
-
这里有两个问题 - 完成 OCR,然后转换为 PDF。我想知道如果您先将您的 TIFF OCR 转换为纯文本,然后您可以使用
wkhtmltopdf之类的东西将其转换为 PDF,是否会更容易搜索问题? -
也是一个很好的建议,但是,wkhtmltopdf 不保持原始文档的完整性。它只使用原始 TIFF 文件中的文本创建一个新的 PDF。
标签: pdf indexing ocr tiff document-conversion