【问题标题】:Improve table recognition提高表格识别
【发布时间】:2020-07-08 12:55:32
【问题描述】:

我尝试使用表单识别器和标签工具分析发票。发票包含字段和表格数据。表中的所有数据都被 ocr 进程识别并且可读。 不幸的是,这些表格并不总是被识别为表格。有时只有一半的数据被识别为表格,在某些情况下没有任何东西被标记为表格。

获取表格数据的最佳方式是什么?

documentation 说: “应该自动检测表格数据,并将在最终输出的 JSON 文件中可用。但是,如果模型无法检测到所有表格数据,您也可以手动标记这些字段。标记表格中的每个单元格使用不同的标签。如果您的表单有不同行数的表格,请确保您至少为一个表格标记了尽可能大的表格。"

这是不切实际的,并且会在几百个字段之上破坏字段计数器。 有没有办法提高表格识别,也许通过修改labels.json并定义regions

【问题讨论】:

  • 感谢迈克的反馈。如果不保密,您能否分享一些示例数据,以便我们查看?

标签: azure-cognitive-services form-recognizer


【解决方案1】:

如果示例发票和表格由于扫描质量和复杂表格而变得复杂,并且这些表格当前无法被我们的表格提取器自动检测到。我们正在努力改进我们的表格技术,并希望能够在不久的将来提取复杂的表格。

在此之前,作为一种解决方法,您可以尝试使用带有标签功能的表单识别器序列,并将这些表标记为键值对,将表的每个单元格标记为一个值。请注意,您需要使用表中最大行数的 5 个样本进行标记和训练。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-11
    • 1970-01-01
    • 2014-12-21
    • 1970-01-01
    • 2019-07-22
    • 2017-08-25
    相关资源
    最近更新 更多