【问题标题】:Table data extraction using Form Recogniser使用表单识别器提取表格数据
【发布时间】:2021-07-11 13:23:53
【问题描述】:

我正在尝试通过训练不同的表格布局结构来提取表格数据。但是一旦训练完成,如果我试图分析一个具有不同布局的新文件,我将无法获取表数据。这是 Azure 认知服务的限制吗?

【问题讨论】:

    标签: azure azure-cognitive-services form-recognizer


    【解决方案1】:

    表格是自动提取并出现在 JSON 输出的 pageResults 部分中,还是在 UX 中它附近有一个小表格图标?如果您正在标记表格并在表格上进行培训,那么您的培训数据是否所有文档都来自相同的格式和布局?如果不是,您应该为每个文档类型(相同的格式和布局)创建一个模型,然后将所有模型组合成一个模型。

    【讨论】:

    • 是否可以将不同的模型组合成一个模型。如果有怎么办?
    【解决方案2】:

    您可以使用 Konfuzio SDK 进行试用 让您开始:

    # pip install konfuzio_sdk
    # in the working directory
    # konfuzio_sdk init
    
    from konfuzio_sdk.api import get_results_from_segmentation
    
    result = get_results_from_segmentation(doc_id=1111, project_id=111)
    # result contains the elements per page
    tables_first_page = [r for r in result[0] if r['label'] == 'table']
    

    创建一个免费帐户here 并上传您的训练数据

    https://github.com/konfuzio-ai/document-ai-python-sdk/issues/24

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-08-25
      • 1970-01-01
      • 1970-01-01
      • 2019-02-24
      • 1970-01-01
      相关资源
      最近更新 更多