【发布时间】:2021-01-19 14:51:20
【问题描述】:
我正在尝试使用 Amazon Textract 执行 OCR 来构建一个小型应用程序。我正在尝试找到一种方法来获取每个单词的字符坐标。
有什么方法可以找到字符级坐标/字符数据?
【问题讨论】:
标签: amazon-web-services ocr text-extraction data-extraction amazon-textract
我正在尝试使用 Amazon Textract 执行 OCR 来构建一个小型应用程序。我正在尝试找到一种方法来获取每个单词的字符坐标。
有什么方法可以找到字符级坐标/字符数据?
【问题讨论】:
标签: amazon-web-services ocr text-extraction data-extraction amazon-textract
对于每个“单词”,是的。文档指定了如何:
使用 Amazon Textract:文档页面上的项目位置
https://docs.aws.amazon.com/textract/latest/dg/text-location.html
Amazon Textract 操作返回在文档页面上找到的项目的位置和几何形状。 DetectDocumentText 和 GetDocumentTextDetection 返回线条和单词的位置和几何形状,而 AnalyzeDocument 和 GetDocumentAnalysis 返回键值对、表格、单元格和选择元素的位置和几何形状。
要确定项目在文档页面上的位置,请使用 Amazon Textract 操作在 Block 对象中返回的边界框(几何)信息。 Geometry 对象包含检测到的项目的两种类型的位置和几何信息:
一个轴对齐的 BoundingBox 对象,包含项目的左上角坐标和宽度和高度。
描述项目轮廓的多边形对象,指定为 Point 对象数组,其中包含每个点的 X(水平轴)和 Y(垂直轴)文档页面坐标。
您可以使用几何信息在检测到的项目周围绘制边界框。有关使用 BoundingBox 和 Polygon 信息在每个单词的开头和结尾处围绕线条和垂直线绘制框的示例,请参阅使用 Amazon Textract 检测文档文本。示例输出类似于以下内容。
边界框 边界框(BoundingBox)具有以下属性:
高度 – 边界框的高度与整个文档页面高度的比率。
Left - 边界框左上角的 X 坐标,作为整个文档页面宽度的比率。
Top - 边界框左上角的 Y 坐标,作为整个文档页面高度的比率。
Width – 边界框的宽度与整个文档页面宽度的比率。
每个 BoundingBox 属性都有一个介于 0 和 1 之间的值。该值是整个图像宽度(适用于左侧和宽度)或高度(适用于高度和顶部)的比率。例如,如果输入图像为 700 x 200 像素,并且边界框的左上角坐标为 (350,50) 像素,则 API 返回左值 0.5 (350/700) 和顶部值 0.25 (50/200)。
【讨论】:
Thanks for using AWS Textract. Currently we don't support providing character coordinates. We will take your feedback and evaluate the feasibility.