如何从 Amazon Textract 获取字符级别数据？答案

【问题标题】：How to get the Character Level Data from Amazon Textract?如何从 Amazon Textract 获取字符级别数据？
【发布时间】：2021-01-19 14:51:20
【问题描述】：

我正在尝试使用 Amazon Textract 执行 OCR 来构建一个小型应用程序。我正在尝试找到一种方法来获取每个单词的字符坐标。

有什么方法可以找到字符级坐标/字符数据？

【问题讨论】：

标签： amazon-web-services ocr text-extraction data-extraction amazon-textract

【解决方案1】：

对于每个“单词”，是的。文档指定了如何：

使用 Amazon Textract：文档页面上的项目位置

https://docs.aws.amazon.com/textract/latest/dg/text-location.html

Amazon Textract 操作返回在文档页面上找到的项目的位置和几何形状。 DetectDocumentText 和 GetDocumentTextDetection 返回线条和单词的位置和几何形状，而 AnalyzeDocument 和 GetDocumentAnalysis 返回键值对、表格、单元格和选择元素的位置和几何形状。

要确定项目在文档页面上的位置，请使用 Amazon Textract 操作在 Block 对象中返回的边界框（几何）信息。 Geometry 对象包含检测到的项目的两种类型的位置和几何信息：

一个轴对齐的 BoundingBox 对象，包含项目的左上角坐标和宽度和高度。

描述项目轮廓的多边形对象，指定为 Point 对象数组，其中包含每个点的 X（水平轴）和 Y（垂直轴）文档页面坐标。

您可以使用几何信息在检测到的项目周围绘制边界框。有关使用 BoundingBox 和 Polygon 信息在每个单词的开头和结尾处围绕线条和垂直线绘制框的示例，请参阅使用 Amazon Textract 检测文档文本。示例输出类似于以下内容。

边界框边界框（BoundingBox）具有以下属性：

高度 – 边界框的高度与整个文档页面高度的比率。

Left - 边界框左上角的 X 坐标，作为整个文档页面宽度的比率。

Top - 边界框左上角的 Y 坐标，作为整个文档页面高度的比率。

Width – 边界框的宽度与整个文档页面宽度的比率。

每个 BoundingBox 属性都有一个介于 0 和 1 之间的值。该值是整个图像宽度（适用于左侧和宽度）或高度（适用于高度和顶部）的比率。例如，如果输入图像为 700 x 200 像素，并且边界框的左上角坐标为 (350,50) 像素，则 API 返回左值 0.5 (350/700) 和顶部值 0.25 (50/200)。

【讨论】：

我知道单词，我问的是字符。你的答案正是文档所说的。但是，无论如何，谢谢。
很遗憾，目前不支持字符级坐标（截至 2021 年 2 月）。 forums.aws.amazon.com/message.jspa?messageID=970443#970443 来自 AWS 支持 Thanks for using AWS Textract. Currently we don't support providing character coordinates. We will take your feedback and evaluate the feasibility.