【问题标题】：Google Cloud Vision API DOCUMENT_TEXT_DETECTION returning incorrect bounding boxGoogle Cloud Vision API DOCUMENT_TEXT_DETECTION 返回不正确的边界框
【发布时间】：2025-12-07 23:50:01
【问题描述】：

我正在使用 Google Cloud Vision API 中的“DOCUMENT_TEXT_DETECTION”选项。

它似乎返回正确的文本值，但不正确的坐标边界框。

为什么会出现这个问题？

谢谢。

原始图片

绘制边界框图片

返回json

附录

绘制边界框词和整体

【问题讨论】：

是单词级别的边界框也放错了地方，还是只是字符级别的边界框？
@rmtheis 抱歉这么晚才回复。请检查附录。谢谢。

标签： ocr google-cloud-vision

【解决方案1】：

DOCUMENT_TEXT_DETECTION 用于密集文本，我建议为该图像使用TEXT_DETECTION。

【讨论】：

显然用户使用这个谷歌云平台图像作为模拟示例。即使用户提供了密集的文本图像，谷歌视觉边界框在字符级别和单词级别都没有正确对齐。

【解决方案2】：

我使用 DOCUMENT_TEXT_DETECTION 模型，我遇到了同样的问题。

符号级别的边界框非常偏移，与其他符号重叠。即使 OCR 做得很好并且能够找到匹配的字符... 见附图说明。（OCR 结果在这种简单的情况下是完美的）：

我注意到这个模型已经成为了 https://cloud.google.com/vision/docs/release-notes#May_15_2020 的遗留模型，也许替代品在这方面做得更好。

【讨论】：