PDF：如何覆盖/修复扫描图像 + OCR 文件中的可搜索文本？答案

【问题标题】：PDF: How can I override/fix searchable text in a scanned image + OCR file?PDF：如何覆盖/修复扫描图像 + OCR 文件中的可搜索文本？
【发布时间】：2018-03-16 19:44:27
【问题描述】：

我正在尝试在一个 PDF 文件上创建索引，我将其扫描为旧原稿中的图像，然后在 Adobe Acrobat Pro 中进行字符识别。问题是一些单词的间隔很有趣，所以 OCR 最终出现了缺陷。我使用了查找和修复嫌疑人工具，但仍然存在问题。

举个例子……

文本“FOR EXAMPLE”在原始文档（当然还有它的图像）中的间距很有趣，因此 Adobe 将其读取为三个单词“FOR EX AMPLE”如果我不知道的话，这会导致单词“ample”的索引条目看起来完全有效。这是迄今为止我发现的文档的几个类似问题之一（还有更多页面需要校对）。

如何修复底层 OCR 文本，使其在创建的索引和中包含正确的信息在搜索文档时。

PS：我不能只切换到文档的纯 OCR 文本版本，因为手稿是技术性的，并且有很多与文本相关的图纸。我需要保留图像并更改下面的“隐藏”可搜索文本。

【问题讨论】：

标签： pdf adobe edit acrobat

【解决方案1】：

我发现 this answer 建议 ABBYY FineReader 14 （商业；我不附属）。看起来它将处理编辑，之后我假设您现有的工作流程将处理索引。 Here 是另一个提供更多工作流程细节的答案（尽管是三年前）。

另外，this question 的答案表明 Perl 的 CAM::PDF 和 pdftk。

【讨论】：

我去看了一些关于 ABBYY FineReader 14 的教程视频，看来它确实可以解决我的问题。我要下载试用版来确认。不幸的是，如果它能完成这项工作，那么这意味着我将不得不多花近 200 美元来购买 Adobe -- who invented PDF -- 应该已经包含在他们昂贵的旗舰产品中的功能。至少可以说非常令人恼火。不管怎样，谢谢你的回答，赏金是你的。
@O.M.Y.非常感谢，祝你工作顺利！绝对是一个令人沮丧的情况 - 祝你一切顺利。