【问题标题】:Google Cloud Vision API DOCUMENT_TEXT_DETECTION returning incorrect bounding boxGoogle Cloud Vision API DOCUMENT_TEXT_DETECTION 返回不正确的边界框
【发布时间】:2025-12-07 23:50:01
【问题描述】:

我正在使用 Google Cloud Vision API 中的“DOCUMENT_TEXT_DETECTION”选项。

它似乎返回正确的文本值,但不正确的坐标边界框。

为什么会出现这个问题?

谢谢。

原始图片

绘制边界框图片

返回json


附录

绘制边界框词和整体

【问题讨论】:

  • 是单词级别的边界框也放错了地方,还是只是字符级别的边界框?
  • @rmtheis 抱歉这么晚才回复。请检查附录。谢谢。

标签: ocr google-cloud-vision


【解决方案1】:

DOCUMENT_TEXT_DETECTION 用于密集文本,我建议为该图像使用TEXT_DETECTION

【讨论】:

  • 显然用户使用这个谷歌云平台图像作为模拟示例。即使用户提供了密集的文本图像,谷歌视觉边界框在字符级别和单词级别都没有正确对齐。
【解决方案2】:

我使用 DOCUMENT_TEXT_DETECTION 模型,我遇到了同样的问题。

符号级别的边界框非常偏移,与其他符号重叠。 即使 OCR 做得很好并且能够找到匹配的字符... 见附图说明。 (OCR 结果在这种简单的情况下是完美的):

我注意到这个模型已经成为了 https://cloud.google.com/vision/docs/release-notes#May_15_2020 的遗留模型,也许替代品在这方面做得更好。

【讨论】: