【发布时间】:2013-11-30 01:01:48
【问题描述】:
我正在创建一个桌面/winform 应用程序,用于读取 tif/pdf 应付发票并提取所有发票信息以存储到数据库中。
我可以使用 OCR(图像的 ocr 特定区域)读取标准条形码(QR 码、Code39 等)和一些应付发票的标准字段(发票日期、公司名称、地址),但无法捕获行项目, 数量正确。
我分两个阶段提取信息:
1.根据模板读取特定区域(用户映射区域
特定领域)
2. OCR整页并搜索应付账款
发票标准字段名称和值
我有以下 3 种方法的想法:
1. 为一种发票创建模板并处理所有发票。
2. 基于神经网络的引擎,需要使用样本数据进行训练才能根据模式进行工作。
3.表单处理,一种OMR。 OCR 查看字段放置在表单上的完全相同的坐标(在表单设计期间)
问题:
如何使用 OCR 或一些智能阅读器提取应付发票?
我主要寻找一些算法(C# + OCR 引擎)/ 支付发票捕获的理念,但参考一些具有相同功能或可靠类型的商业产品的 SDK 也会有所帮助。
我在 Google 上搜索并发现 Abbyy FlexiCapture Engine、IRIS Capture & Extract 有一定的前景,但主要是基于模板或培训。他们声称不需要模板或培训,但没有任何东西看起来 100 自动捕获。
请参考一些产品(至少免费试用)、SDK 或示例/示例。
【问题讨论】:
-
要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是题外话,因为它们往往会吸引固执己见的答案和垃圾邮件。相反,请描述问题以及迄今为止为解决该问题所做的工作。
-
我已经提到了我所做的事情。 (使用区域 ocr 技术提取预定义区域的数据)。但我不知道如何提取非结构化数据和表格。我的第一个问题是“我主要寻找一些算法(C# + OCR 引擎)/应付发票捕获的哲学”。要求推荐或查找工具是最后一个选项,因为该域有很多可用的帮助。
-
我之前在这里回答过类似的问题,试图通过根据我自己的亲身体验提供具体的产品推荐来提供帮助,但管理员/版主扼杀了我的回答并删除了有用的信息,这让我不愿意花时间在这里尝试帮助他人。无论如何,这是一个好的开始:stackoverflow.com/questions/7362926/… 如果您有任何更具体的问题,请告诉我。
-
“他们声称不需要模板或培训,但没有任何东西看起来 100 自动捕获” - 正确,今天有一些“预烘焙”模板,让简单场景看起来好像不需要模板,但是为了实现高精度的识别和识别(没有人谈论 100% 除非你有有限的变化)必须使用一些基于模板的工作。
-
嗨,Ilya Evdonikov,您发布的链接指向删除答案,您能指出我从哪里开始寻找吗?
标签: c# ocr capture invoices iris-recognition