【发布时间】:2011-12-03 02:20:13
【问题描述】:
我正在开发一个用于处理文档图像(主要是发票)的应用程序,基本上,我想将某些感兴趣的区域转换为 XML 结构,然后根据该数据对文档进行分类。目前我正在使用 ImageJ 来分析文档图像,并使用 Asprise/tesseract 来进行 OCR。
现在我正在寻找使开发更容易的东西。具体来说,我正在寻找能够自动校正文档图像并分析文档结构的东西(例如,将图像转换为四叉树结构以便于处理)。虽然我更喜欢 Java 和 ImageJ,但我对任何库/代码/论文都感兴趣,不管它是用什么编程语言编写的。
虽然我正在使用的系统应尽可能自动处理数据,但用户应监督结果,并在必要时更正系统建议的分类。因此,我有兴趣使用机器学习技术来获得更可靠的结果。处理类似文件时,例如特定公司的发票,其结构通常相同。当用户以前更正了来自公司的文件数据时,将来应该考虑这些更正。我对机器学习技术的了解有限,想知道如何实现我的想法。
【问题讨论】:
-
您介意发布示例图片吗?它将评估解决方案的性能。
-
@Matthias Odisio 我自己无法在此处发布真实发票,但任何示例发票都可以。例如。这个here.
-
谢谢,我可以提出一个解决方案。
-
我会对它非常感兴趣!我不需要提取文档中包含的所有数据。基本上,我有兴趣获取发行者和接收者的名称和国家、发票编号、总金额以及由描述、单位、数量和金额组成的行项目列表。重要的是,最终算法应该能够可靠地处理许多不同格式的发票。但是,我对实现这一目标的任何信息感兴趣。
-
糟糕,我在回答之前发表了评论。我已经编辑了我的答案,以便更容易复制粘贴代码。
标签: language-agnostic image-processing machine-learning classification