【问题标题】：Detect text area in an image using python and opencv使用python和opencv检测图像中的文本区域
【发布时间】：2016-10-12 18:44:09
【问题描述】：

我想使用 python 2.7 和 opencv 2.4.9 检测图像的文本区域并在其周围绘制一个矩形区域。如下图示例所示。

我是图像处理的新手，所以任何想法如何做到这一点将不胜感激。

【问题讨论】：

如果可能，请使用 OpenCV 3.1 并使用 scene text detection 功能。
@flowfree 我无法升级它，因为该项目还有其他组件。
你必须在图像中寻找颜色。但是它在您的图像中具有相似的颜色，因此可能很困难。如果您只是在寻找里面的文本，那么有一个名为“tesseract”的库
您在寻找“类似工具”的解决方案吗？（来自模块的现成函数或类似的东西）或者你可以从第一原理开始吗？在您在此处描述的情况下，这样做（检测文本）相对容易。此外，您还错过了大卧室西北部橱柜中的“LIN”一词。你也想捕捉这些字母吗？
@A_A 从第一原则做是我想要的方式。我只想检测标记的单词

标签： python opencv image-processing computer-vision ocr

【解决方案1】：

检测图像中的文本有多种方法。

我建议查看this question here，因为它也可以回答您的情况。虽然它不在 python 中，但代码可以很容易地从 c++ 转换为 python（只需查看 API 并将方法从 c++ 转换为 python，并不难。当我为自己的单独问题尝试他们的代码时，我自己做了） .此处的解决方案可能不适用于您的情况，但我建议您尝试一下。

如果我要这样做，我会执行以下过程：

准备您的图片：如果您要编辑的所有图像都与您提供的图像大致相同，则实际设计由一系列灰色组成，并且文本始终为黑色。我会首先将所有非黑色（或已经是白色）的内容变白。这样做只会留下黑色文本。

# must import if working with opencv in python
import numpy as np
import cv2

# removes pixels in image that are between the range of
# [lower_val,upper_val]
def remove_gray(img,lower_val,upper_val):
    hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
    lower_bound = np.array([0,0,lower_val])
    upper_bound = np.array([255,255,upper_val])
    mask = cv2.inRange(gray, lower_bound, upper_bound)
    return cv2.bitwise_and(gray, gray, mask = mask)

现在您所拥有的只是黑色文本，目标是获取这些框。如前所述，有不同的解决方法。

笔画宽度变换 (SWT)

查找文本区域的典型方法：您可以使用 Boris Epshtein、Eyal Ofek 和 Yonatan Wexler 在"Detecting Text in Natural Scenes with Stroke Width Transform " 中描述的笔划宽度变换来查找文本区域。老实说，如果这和我相信的一样快速和可靠，那么这种方法比我下面的代码更有效。不过，您仍然可以使用上面的代码来移除蓝图设计，这可能有助于提高 swt 算法的整体性能。

Here is a c library 实现了他们的算法，但据说它非常原始并且文档不完整。显然，为了在 python 中使用这个库，需要一个包装器，目前我没有看到官方提供的包装器。

我链接的库是CCV。它是一个旨在用于您的应用程序的库，而不是重新创建算法。所以这是一个可以使用的工具，它违背了 OP 从“第一原则”中制作它的愿望，如 cmets 中所述。不过，如果您不想自己编写算法，知道它的存在还是很有用的。

自制非 SWT 方法

如果您有每张图片的元数据，比如在一个 xml 文件中，说明每张图片中标记了多少个房间，那么您可以访问该 xml 文件，获取有关图片中有多少标签的数据，然后然后将该数字存储在某个变量中，例如num_of_labels。现在拍摄您的图像并使其通过一个 while 循环，该循环以您指定的设定速率腐蚀，在每个循环中查找图像中的外部轮廓，并在具有与 num_of_labels 相同数量的外部轮廓时停止循环。然后只需找到每个轮廓的边界框即可。

# erodes image based on given kernel size (erosion = expands black areas)
def erode( img, kern_size = 3 ):
    retval, img = cv2.threshold(img, 254.0, 255.0, cv2.THRESH_BINARY) # threshold to deal with only black and white.
    kern = np.ones((kern_size,kern_size),np.uint8) # make a kernel for erosion based on given kernel size.
    eroded = cv2.erode(img, kern, 1) # erode your image to blobbify black areas
    y,x = eroded.shape # get shape of image to make a white boarder around image of 1px, to avoid problems with find contours.
    return cv2.rectangle(eroded, (0,0), (x,y), (255,255,255), 1)

# finds contours of eroded image
def prep( img, kern_size = 3 ):    
    img = erode( img, kern_size )
    retval, img = cv2.threshold(img, 200.0, 255.0, cv2.THRESH_BINARY_INV) #   invert colors for findContours
    return cv2.findContours(img,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE) # Find Contours of Image

# given img & number of desired blobs, returns contours of blobs.
def blobbify(img, num_of_labels, kern_size = 3, dilation_rate = 10):
    prep_img, contours, hierarchy = prep( img.copy(), kern_size ) # dilate img and check current contour count.
    while len(contours) > num_of_labels:
        kern_size += dilation_rate # add dilation_rate to kern_size to increase the blob. Remember kern_size must always be odd.
        previous = (prep_img, contours, hierarchy)
        processed_img, contours, hierarchy = prep( img.copy(), kern_size ) # dilate img and check current contour count, again.
    if len(contours) < num_of_labels:
        return (processed_img, contours, hierarchy)
    else:
        return previous

# finds bounding boxes of all contours
def bounding_box(contours):
    bBox = []
    for curve in contours:
        box = cv2.boundingRect(curve)
    bBox.append(box)
    return bBox

上述方法生成的框将在标签周围留有空间，如果将框应用于原始图像，这可能包括原始设计的一部分。为避免这种情况，请通过新找到的框制作感兴趣的区域并修剪空白区域。然后将该 roi 的形状保存为您的新框。

也许您无法知道图像中有多少标签。如果是这种情况，那么我建议您使用侵蚀值，直到找到最适合您的情况并获得所需的 blob。

或者您可以尝试在移除设计后在剩余内容上找到轮廓，然后根据边界框之间的距离将它们组合成一个矩形。

找到你的盒子后，只需根据原始图像使用这些盒子即可。

OpenCV 3 中的场景文本检测模块

正如您问题的 cmets 中所述，opencv 3 中已经存在一种场景文本检测（不是文档文本检测）的方法。我知道您没有能力切换版本，但对于那些有相同问题的人并且不限于较旧的 opencv 版本，我决定在最后包含这个。可以通过简单的谷歌搜索找到场景文本检测的文档。

用于文本检测的opencv模块还带有实现tessaract的文本识别，这是一个免费的开源文本识别模块。 tessaract，因此opencv的场景文本识别模块的失败之处在于它没有商业应用程序那么精细，并且使用起来很耗时。从而降低了它的性能，但它可以免费使用，所以如果你也想要文本识别，它是我们最好的而不花钱。

链接：

老实说，我缺乏 opencv 和图像处理方面的经验和专业知识，无法提供详细的方法来实现他们的文本检测模块。与 SWT 算法相同。过去几个月我才开始研究这些东西，但随着我了解更多，我会编辑这个答案。

【讨论】：

我一直在阅读这方面的内容，并且有几个 SWT 的 Python 实现可能对您有用：[1] github.com/marrrcin/swt-python [2] github.com/mypetyak/StrokeWidthTransform

【解决方案2】：

这是一种仅使用阈值和轮廓过滤的简单图像处理方法：

获取二值图像。Load image，转换为grayscale、Gaussian blur、adaptive threshold
合并相邻的文本。我们创建一个rectangular structuring kernel 然后dilate 形成一个单一的轮廓
过滤文本轮廓。我们find contours 并使用contour area 进行过滤。从这里我们可以用cv2.rectangle()绘制边界框

使用这个原始输入图像（去除红线）

将图像转换为灰度和高斯模糊后，我们自适应阈值得到二值图像

接下来我们进行扩张，将文本组合成一个轮廓

从这里我们找到轮廓并使用最小阈值区域进行过滤（以防噪音很小）。这是结果

如果我们愿意，我们还可以使用 Numpy 切片提取并保存每个 ROI

代码

import cv2

# Load image, grayscale, Gaussian blur, adaptive threshold
image = cv2.imread('1.png')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray, (9,9), 0)
thresh = cv2.adaptiveThreshold(blur,255,cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY_INV,11,30)

# Dilate to combine adjacent text contours
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9,9))
dilate = cv2.dilate(thresh, kernel, iterations=4)

# Find contours, highlight text areas, and extract ROIs
cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]

ROI_number = 0
for c in cnts:
    area = cv2.contourArea(c)
    if area > 10000:
        x,y,w,h = cv2.boundingRect(c)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 3)
        # ROI = image[y:y+h, x:x+w]
        # cv2.imwrite('ROI_{}.png'.format(ROI_number), ROI)
        # ROI_number += 1

cv2.imshow('thresh', thresh)
cv2.imshow('dilate', dilate)
cv2.imshow('image', image)
cv2.waitKey()

【讨论】：

我想补充一点，但对于未来的读者在处理这类任务时很重要。确保你也记住了 dpi。 300 dpi 的相同图像可能不会提供与 72 dpi 相同的结果。
@PrameshBajracharya 是的，这取决于图像的大小，您可能需要调整轮廓区域阈值或更改扩张内核大小。不幸的是，在处理图像处理以提取对象时，没有针对所有图像的一种解决方案

【解决方案3】：

在 OpenCV 中检测文本区域非常简单，因为 EAST 出现在图片中。文本检测器不仅准确，而且能够在 720p 图像上以大约 13 FPS 的速度近乎实时地运行。入门教程可以在here找到

【讨论】：

【解决方案4】：

LearnOpenCV 上有一个很好的教程：https://learnopencv.com/deep-learning-based-text-detection-using-opencv-c-python/

源代码可以在这里找到：https://github.com/spmallick/learnopencv/tree/master/TextDetectionEAST

这里有进一步的 OCR 教程：https://learnopencv.com/deep-learning-based-text-recognition-ocr-using-tesseract-and-opencv/

OCR 源代码在这里：https://github.com/spmallick/learnopencv/blob/master/OCR/ocr_simple.py

【讨论】：