机器打印文本的 ICR？答案

【问题标题】：ICR for machine printed text?机器打印文本的 ICR？
【发布时间】：2013-04-11 07:10:12
【问题描述】：

我知道 ICR 主要用于手写（手印）数据识别，但我们可以利用 ICR 来提取扭曲（质量差）的机器打印文本吗？

如果不是解决以下问题的最佳方法

我有一个非结构化文档，它可能包含 2 页或更多页，文档中几乎没有需要手写的日期字段。现在我想将其转换为文本文件。我尝试了一些全页 ocr（omnipage 和 abbyy 等）工具，它们具有 ICR 模块以转换为文本文件。他们擅长整页 OCR，但是当遇到手写日期时，它会在其中放置垃圾字符而不是使用 ICR 模块。我不想使用 parascript 和 A2ia 等基于位置且仅适用于结构化文档的表单处理工具。

或者我们可以使用ICR来转换机器打印的文本和手写的（无论如何在这种情况下它可以用于手动返回日期）

我的目标是从非结构化文档中获取文本文件输出，手写文本很少（如日期、数字）

【问题讨论】：

标签： ocr data-extraction icr

【解决方案1】：

我尝试了一些整页 ocr（omnipage 和 abbyy 等）工具有ICR模块

这是不正确的，这解释了糟糕的结果。如果您尝试过零售版的 OmniPage 和 ABBYY FineReader，这些软件包只是 OCR，不支持 ICR。

我不想使用表单处理工具

您可能必须以某种方式这样做，但该方法有一些变体。这必须是两种技术的结合，要么是开箱即用的，要么是自行创建的，但它比仅仅安装和运行它需要更多的努力。

今天，假设没有可以提供高质量结果的非结构化文本 ICR 软件。全页 OCR 或非结构化文本 OCR（机器文本）在机器文本上产生高质量的结果，而在手写时产生垃圾。您说得对，ICR 意味着区域识别，它允许提供数据类型和后端字典以改进对手写的识别。

对于最简单、最快的方法，也可能是最经济且劳动强度最低的方法，我会使用非结构化表单处理包，例如 ABBYY FlexiCapture (http://www.wisetrend.com/abbyy_flexicapture.shtml)。它需要一些非编程设置来“定位”区域。区域可能会改变位置，但该软件仍然会找到它们，然后使用适当的算法（OCR/ICR）来读取区域内容。支持 OCR、ICR、OMR（复选标记）、BCR（条形码）。还具有内置的整页 OCR。我在内部使用这个软件，然后转售它，并拥有超过 14 年的微调经验。

对于一种可能更经济的方式，但可能需要手动结合至少两种技术（两次购买而不是一加人工 - 在一天结束时可能不是最经济的），我会使用某种 OCR SDK用于机器文本，以及用于手写区域的某种支持 ICR 的 SDK。根据这些区域位置的一致性，您可能只能提供坐标。如果它们发生变化，则需要对区域位置进行更深入的分析，以将它们传递给 ICR。需要返回 ICR 识别的文本以插入到 OCRed 文本中的适当位置。

在我看来，现在有许多开箱即用的工具，我会使用开箱即用的东西而不是自己编写，因为有几个主要挑战需要解决：区域识别，两种技术集成，工作流。几年前，当当前工具不可用时，我们已经完成了此类集成。

【讨论】：