【发布时间】:2020-07-08 12:55:32
【问题描述】:
我尝试使用表单识别器和标签工具分析发票。发票包含字段和表格数据。表中的所有数据都被 ocr 进程识别并且可读。 不幸的是,这些表格并不总是被识别为表格。有时只有一半的数据被识别为表格,在某些情况下没有任何东西被标记为表格。
获取表格数据的最佳方式是什么?
documentation 说: “应该自动检测表格数据,并将在最终输出的 JSON 文件中可用。但是,如果模型无法检测到所有表格数据,您也可以手动标记这些字段。标记表格中的每个单元格使用不同的标签。如果您的表单有不同行数的表格,请确保您至少为一个表格标记了尽可能大的表格。"
这是不切实际的,并且会在几百个字段之上破坏字段计数器。 有没有办法提高表格识别,也许通过修改labels.json并定义regions?
【问题讨论】:
-
感谢迈克的反馈。如果不保密,您能否分享一些示例数据,以便我们查看?
标签: azure-cognitive-services form-recognizer