好吧,我决定在我的问题上锻炼自己来解决上述问题。我想要的是使用 OpenCV 中的 KNearest 或 SVM 功能实现一个简单的 OCR。下面是我做了什么以及如何做的。 (仅用于学习如何使用 KNearest 进行简单的 OCR)。
1) 我的第一个问题是关于 OpenCV 样本附带的 letter_recognition.data 文件。我想知道那个文件里面有什么。
它包含一个字母,以及该字母的 16 个特征。
而this SOF 帮助我找到了它。这 16 个特性在论文Letter Recognition Using Holland-Style Adaptive Classifiers 中有解释。
(虽然最后有些功能我没看懂)
2) 因为我知道,如果不了解所有这些功能,很难做到这种方法。我尝试了其他一些论文,但对于初学者来说都有点困难。
So I just decided to take all the pixel values as my features.(我并不担心准确性或性能,我只是希望它能够工作,至少准确性最低)
我为我的训练数据拍摄了下图:
(我知道训练数据量较少。但是,由于所有字母的字体和大小都相同,我决定尝试一下)。
为了准备训练数据,我在 OpenCV 中做了一个小代码。它做了以下事情:
- 它会加载图像。
- 选择数字(显然是通过轮廓查找和对字母的面积和高度应用约束以避免错误检测)。
- 围绕一个字母绘制边界矩形并等待
key press manually。这次我们自己按数字键对应框中的字母。
- 一旦按下相应的数字键,它就会将此框的大小调整为 10x10,并将 100 个像素值保存在一个数组(此处为样本)中,并将相应的手动输入的数字保存在另一个数组中(此处为响应)。
- 然后将两个数组保存在单独的 txt 文件中。
在数字手动分类结束时,train data(train.png)中的所有数字都是我们自己手动标注的,如下图所示:
以下是我用于上述目的的代码(当然,不是那么干净):
import sys
import numpy as np
import cv2
im = cv2.imread('pitrain.png')
im3 = im.copy()
gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray,(5,5),0)
thresh = cv2.adaptiveThreshold(blur,255,1,1,11,2)
################# Now finding Contours ###################
contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)
samples = np.empty((0,100))
responses = []
keys = [i for i in range(48,58)]
for cnt in contours:
if cv2.contourArea(cnt)>50:
[x,y,w,h] = cv2.boundingRect(cnt)
if h>28:
cv2.rectangle(im,(x,y),(x+w,y+h),(0,0,255),2)
roi = thresh[y:y+h,x:x+w]
roismall = cv2.resize(roi,(10,10))
cv2.imshow('norm',im)
key = cv2.waitKey(0)
if key == 27: # (escape to quit)
sys.exit()
elif key in keys:
responses.append(int(chr(key)))
sample = roismall.reshape((1,100))
samples = np.append(samples,sample,0)
responses = np.array(responses,np.float32)
responses = responses.reshape((responses.size,1))
print "training complete"
np.savetxt('generalsamples.data',samples)
np.savetxt('generalresponses.data',responses)
现在我们进入训练和测试部分。
对于我使用下图的测试部分,它具有与我曾经训练过的相同类型的字母。
对于训练,我们执行以下操作:
- 加载我们之前保存的 txt 文件
- 创建我们正在使用的分类器实例(这里是 KNearest)
- 然后我们使用 KNearest.train 函数来训练数据
出于测试目的,我们执行以下操作:
- 我们加载用于测试的图像
- 像之前一样处理图像并使用轮廓方法提取每个数字
- 为其绘制边界框,然后将其大小调整为 10x10,并将其像素值存储在一个数组中,如前所述。
- 然后我们使用 KNearest.find_nearest() 函数来找到最接近我们给定的项目。 (如果幸运的话,它会识别出正确的数字。)
我在下面的单个代码中包含了最后两个步骤(训练和测试):
import cv2
import numpy as np
####### training part ###############
samples = np.loadtxt('generalsamples.data',np.float32)
responses = np.loadtxt('generalresponses.data',np.float32)
responses = responses.reshape((responses.size,1))
model = cv2.KNearest()
model.train(samples,responses)
############################# testing part #########################
im = cv2.imread('pi.png')
out = np.zeros(im.shape,np.uint8)
gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)
contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)
for cnt in contours:
if cv2.contourArea(cnt)>50:
[x,y,w,h] = cv2.boundingRect(cnt)
if h>28:
cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)
roi = thresh[y:y+h,x:x+w]
roismall = cv2.resize(roi,(10,10))
roismall = roismall.reshape((1,100))
roismall = np.float32(roismall)
retval, results, neigh_resp, dists = model.find_nearest(roismall, k = 1)
string = str(int((results[0][0])))
cv2.putText(out,string,(x,y+h),0,1,(0,255,0))
cv2.imshow('im',im)
cv2.imshow('out',out)
cv2.waitKey(0)
它成功了,下面是我得到的结果:
在这里它以 100% 的准确率工作。我认为这是因为所有数字的种类和大小都相同。
但无论如何,这对于初学者来说是一个好的开始(我希望如此)。