【发布时间】:2018-03-16 19:44:27
【问题描述】:
我正在尝试在一个 PDF 文件上创建索引,我将其扫描为旧原稿中的图像,然后在 Adobe Acrobat Pro 中进行字符识别。问题是一些单词的间隔很有趣,所以 OCR 最终出现了缺陷。我使用了查找和修复嫌疑人工具,但仍然存在问题。
举个例子……
文本“FOR EXAMPLE”在原始文档(当然还有它的图像)中的间距很有趣,因此 Adobe 将其读取为三个单词“FOR EX AMPLE”如果我不知道的话,这会导致单词“ample”的索引条目看起来完全有效。这是迄今为止我发现的文档的几个类似问题之一(还有更多页面需要校对)。
如何修复底层 OCR 文本,使其在创建的索引 和 中包含正确的信息 在搜索文档时。
PS:我不能只切换到文档的纯 OCR 文本版本,因为手稿是技术性的,并且有很多与文本相关的图纸。我需要保留图像并更改下面的“隐藏”可搜索文本。
【问题讨论】: