【发布时间】:2013-04-11 07:10:12
【问题描述】:
我知道 ICR 主要用于手写(手印)数据识别,但我们可以利用 ICR 来提取扭曲(质量差)的机器打印文本吗?
如果不是解决以下问题的最佳方法
我有一个非结构化文档,它可能包含 2 页或更多页,文档中几乎没有需要手写的日期字段。现在我想将其转换为文本文件。 我尝试了一些全页 ocr(omnipage 和 abbyy 等)工具,它们具有 ICR 模块以转换为文本文件。 他们擅长整页 OCR,但是当遇到手写日期时,它会在其中放置垃圾字符而不是使用 ICR 模块。 我不想使用 parascript 和 A2ia 等基于位置且仅适用于结构化文档的表单处理工具。
或者我们可以使用ICR来转换机器打印的文本和手写的(无论如何在这种情况下它可以用于手动返回日期)
我的目标是从非结构化文档中获取文本文件输出,手写文本很少(如日期、数字)
【问题讨论】:
标签: ocr data-extraction icr