【问题标题】:PDF: How can I override/fix searchable text in a scanned image + OCR file?PDF:如何覆盖/修复扫描图像 + OCR 文件中的可搜索文本?
【发布时间】:2018-03-16 19:44:27
【问题描述】:

我正在尝试在一个 PDF 文件上创建索引,我将其扫描为旧原稿中的图像,然后在 Adob​​e Acrobat Pro 中进行字符识别。问题是一些单词的间隔很有趣,所以 OCR 最终出现了缺陷。我使用了查找和修复嫌疑人工具,但仍然存在问题。

举个例子……

文本“FOR EXAMPLE”在原始文档(当然还有它的图像)中的间距很有趣,因此 Adob​​e 将其读取为三个单词“FOR EX AMPLE”如果我不知道的话,这会导致单词“ample”的索引条目看起来完全有效。这是迄今为止我发现的文档的几个类似问题之一(还有更多页面需要校对)。

如何修复底层 OCR 文本,使其在创建的索引 中包含正确的信息 在搜索文档时。

PS:我不能只切换到文档的纯 OCR 文本版本,因为手稿是技术性的,并且有很多与文本相关的图纸。我需要保留图像并更改下面的“隐藏”可搜索文本。

【问题讨论】:

    标签: pdf adobe edit acrobat


    【解决方案1】:

    我发现 this answer 建议 ABBYY FineReader 14 (商业;我不附属)。看起来它将处理编辑,之后我假设您现有的工作流程将处理索引。 Here 是另一个提供更多工作流程细节的答案(尽管是三年前)。

    另外,this question 的答案表明 Perl 的 CAM::PDFpdftk

    【讨论】:

    • 我去看了一些关于 ABBYY FineReader 14 的教程视频,看来它确实可以解决我的问题。我要下载试用版来确认。不幸的是,如果它能完成这项工作,那么这意味着我将不得不多花近 200 美元来购买 Adob​​e -- who invented PDF -- 应该已经包含在他们昂贵的旗舰产品中的功能。至少可以说非常令人恼火。不管怎样,谢谢你的回答,赏金是你的。
    • @O.M.Y.非常感谢,祝你工作顺利!绝对是一个令人沮丧的情况 - 祝你一切顺利。
    猜你喜欢
    • 2017-12-12
    • 1970-01-01
    • 2018-05-17
    • 1970-01-01
    • 2010-10-24
    • 1970-01-01
    • 2017-06-26
    • 2013-07-23
    • 2012-09-25
    相关资源
    最近更新 更多