【问题标题】:Pytesseract OCR Bounding BoxPytesseract OCR 边界框
【发布时间】:2019-06-07 08:12:42
【问题描述】:

我正在尝试使用 pytesseract 在带标签的图像中进行 ocr,标签返回带有相关边界框的 xml。我想匹配标签,看看它们是否与使用边界框从整个图像中进行 OCR 处理的文本重叠。有没有办法获得每个完整单词的边界框?我在下面尝试过这段代码,但它返回每个字母的边界框,所以我想知道是否有人可以推荐另一种方法来执行此操作,或者他们是否知道 python 中可以使用我的 xml 文件查找边界的替代 ocr 包盒子和 ocr 代替(或者如果他们知道 pytesseract 是如何做到这一点的?)。我不需要代码答案,只是一些建议。

> img = cv2.imread(filename) h, w, _ = img.shape boxes =
> pytesseract.image_to_boxes(img)  for b in boxes.splitlines():
>     b = b.split(' ')
>     img = cv2.rectangle(img, (int(b[1]), h - int(b[2])), (int(b[3]), h - int(b[4])), (0, 255, 0), 2)

我希望代码只返回我创建的标签中出现的相关内容,我可以执行执行重叠检查的代码,但我只需要每个单词完整的边界框...

【问题讨论】:

    标签: python ocr python-tesseract


    【解决方案1】:

    如果有人仍在寻找答案: pytesseract 的 image_to_data 返回整个单词的边界框。它返回每个单词、单词和其他信息的边界框。您可以在此处找到有关该函数输出的更多信息:https://github.com/tesseract-ocr/tesseract/wiki/Command-Line-Usage#tsv-output-currently-available-in-305-dev-in-master-branch-on-github

    【讨论】:

      猜你喜欢
      • 2021-01-22
      • 1970-01-01
      • 2023-03-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-11-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多