使用 OCR 解析和分析收据答案

【问题标题】：Parsing and analysing the Receipts using OCR使用 OCR 解析和分析收据
【发布时间】：2017-03-05 11:27:27
【问题描述】：

我正在做一个项目，可以使用 OCR 读取收据并对其进行解析以获取商家名称、日期、金额等重要信息。我正在使用谷歌提供的 vision API 来解析图像并以 JSON 格式从中获取文本。现在我想进入下一步，我可以解析文本并尝试通过它的位置或表达式来识别信息。现在我可以从简单的货币中提取金额，然后是数字字符串。从这一点开始，我应该在哪里寻找分析文本以提取任何信息（尝试开发一个可以从任何类型的收据中提取信息的系统）。即使是很小的领先优势也会帮助我前进。

谢谢。

【问题讨论】：

标签： parsing ocr

【解决方案1】：

我开始通过查找“日期”、“金额”、“总计”、“卢比”等标记从返回的文本格式中提取信息。我开发了一种算法，将发现的不同数字排列为实际数量。此外，我通过删除 ("the","in" , "welcome" ) 等标记获得了商家名称，在大多数情况下，该名称位于收据的顶部。

【讨论】：

目前，我也在处理这个案子。你能解释一下你的排名算法吗？ @桑迪
嗨@DharmaSaputra，我正在使用字符串的正则表达式来检查它是否形成数量。与“Total”、“amount”等关键词最接近的字符串被赋予更高的排名。