【问题标题】:How to get the Character Level Data from Amazon Textract?如何从 Amazon Textract 获取字符级别数据?
【发布时间】:2021-01-19 14:51:20
【问题描述】:

我正在尝试使用 Amazon Textract 执行 OCR 来构建一个小型应用程序。我正在尝试找到一种方法来获取每个单词的字符坐标。

有什么方法可以找到字符级坐标/字符数据?

【问题讨论】:

    标签: amazon-web-services ocr text-extraction data-extraction amazon-textract


    【解决方案1】:

    对于每个“单词”,是的。文档指定了如何:

    使用 Amazon Textract:文档页面上的项目位置

    https://docs.aws.amazon.com/textract/latest/dg/text-location.html

    Amazon Textract 操作返回在文档页面上找到的项目的位置和几何形状。 DetectDocumentText 和 GetDocumentTextDetection 返回线条和单词的位置和几何形状,而 AnalyzeDocument 和 GetDocumentAnalysis 返回键值对、表格、单元格和选择元素的位置和几何形状。

    要确定项目在文档页面上的位置,请使用 Amazon Textract 操作在 Block 对象中返回的边界框(几何)信息。 Geometry 对象包含检测到的项目的两种类型的位置和几何信息:

    一个轴对齐的 BoundingBox 对象,包含项目的左上角坐标和宽度和高度。

    描述项目轮廓的多边形对象,指定为 Point 对象数组,其中包含每个点的 X(水平轴)和 Y(垂直轴)文档页面坐标。

    您可以使用几何信息在检测到的项目周围绘制边界框。有关使用 BoundingBox 和 Polygon 信息在每个单词的开头和结尾处围绕线条和垂直线绘制框的示例,请参阅使用 Amazon Textract 检测文档文本。示例输出类似于以下内容。

    边界框 边界框(BoundingBox)具有以下属性:

    高度 – 边界框的高度与整个文档页面高度的比率。

    Left - 边界框左上角的 X 坐标,作为整个文档页面宽度的比率。

    Top - 边界框左上角的 Y 坐标,作为整个文档页面高度的比率。

    Width – 边界框的宽度与整个文档页面宽度的比率。

    每个 BoundingBox 属性都有一个介于 0 和 1 之间的值。该值是整个图像宽度(适用于左侧和宽度)或高度(适用于高度和顶部)的比率。例如,如果输入图像为 700 x 200 像素,并且边界框的左上角坐标为 (350,50) 像素,则 API 返回左值 0.5 (350/700) 和顶部值 0.25 (50/200)。

    【讨论】:

    • 我知道单词,我问的是字符。你的答案正是文档所说的。但是,无论如何,谢谢。
    • 很遗憾,目前不支持字符级坐标(截至 2021 年 2 月)。 forums.aws.amazon.com/message.jspa?messageID=970443#970443 来自 AWS 支持 Thanks for using AWS Textract. Currently we don't support providing character coordinates. We will take your feedback and evaluate the feasibility.
    猜你喜欢
    • 1970-01-01
    • 2019-09-24
    • 1970-01-01
    • 2019-08-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-01
    • 2020-06-20
    相关资源
    最近更新 更多