【发布时间】:2019-09-26 11:40:30
【问题描述】:
我正在使用 Alfresco 社区 6.1。
我要扫描数千张发票,对其进行 OCR(几乎 100% 识别)并检索所需的元数据(合作伙伴、发票编号、金额、单位、货币...)。(所有这些都在 Alfresco 中)
根据检索到的这些元数据,我需要对发票进行一些操作(将它们移动到适当的文件夹,应用一些工作流程...)。
作为第一种方法:
对于 OCR,我使用了Alfresco Simple OCR Action,但结果不是很准确(远非 100%)。
为了检索结果,我将 PDF OCRed 转换为纯文本文件,然后使用带有 document.content 的 javascript 搜索它的内容...但由于 OCR 不准确,我无法判断它是否是在文档中搜索的最佳解决方案。
所以我的问题是:
如何使 OCR 结果更准确?
如何从发票中检索重要数据?对于这种处理,我使用的方法是足够好还是非常差?
我正在使用 pdfsandwich,而我的 alfresco-global.properties 是:
ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang eng
ocr.server.os=linux
【问题讨论】:
标签: javascript metadata ocr alfresco alfresco-share