【发布时间】:2011-02-06 11:43:05
【问题描述】:
这是OCR过程的一部分,即:
如何将句子分割成单词,再分割成字符?
这个任务的候选算法是什么?
【问题讨论】:
标签: matlab artificial-intelligence machine-learning ocr pattern-recognition
这是OCR过程的一部分,即:
如何将句子分割成单词,再分割成字符?
这个任务的候选算法是什么?
【问题讨论】:
标签: matlab artificial-intelligence machine-learning ocr pattern-recognition
作为第一关:
现在你只需要一个足够好的“大”定义。
【讨论】:
首先,NIST(美国国家标准与技术研究院)在大约 15 年前发布了一个名为 NIST 基于表单的手写识别系统的protocol对于这个确切的问题——即提取和准备文本作为图像的数据,以输入到 OCR 的机器学习算法中。 NIST 这个小组的成员也在这个系统上发布了许多papers。
他们的分类器的性能也通过该算法发布的数据(“NIST 手写样本表格”)得到证明。
我已经下载和使用的大约六个 OCR 数据集中的每一个都引用了 NIST 使用的数据提取/准备协议来准备数据以输入到他们的算法中。特别是,我很确定这是准备波士顿大学手写数字数据库所依赖的方法,该数据库被视为 OCR 的基准参考数据。
因此,如果 NIST 协议不是真正的标准,至少它是一种经过验证的方法,可以将文本作为图像准备用于 OCR 算法的输入。我建议从那里开始,并使用该协议来准备您的数据,除非您有充分的理由不这样做。
总之,NIST 数据是通过直接从预先打印的表格中提取 32 位 x 32 位标准化位图来准备的。
这是一个例子:
00000000000001100111100000000000 00000000000111111111111111000000 00000000011111111111111111110000 00000000011111111111111111110000 00000000011111111101000001100000 00000000011111110000000000000000 00000000111100000000000000000000 000000011111000000000000000000000 00000001111100011110000000000000 00000001111100011111000000000000 00000001111111111111111000000000 00000001111111111111111000000000 00000001111111111111111110000000 00000001111111111111111100000000 00000001111111100011111110000000 00000001111110000001111110000000 00000001111100000000111110000000 00000001111000000000111110000000 00000000000000000000001111000000 00000000000000000000001111000000 00000000000000000000011110000000 00000000000000000000011110000000 00000000000000000000111110000000 000000000000000000001111100000000 00000000001110000001111100000000 00000000001110000011111100000000 00000000001111101111111000000000 00000000011111111111100000000000 00000000011111111111000000000000 00000000011111111110000000000000 00000000001111111000000000000000 00000000000010000000000000000000
我认为 BU 数据准备技术包含了 NIST 技术,但在最后增加了一些步骤,目的不是为了提高保真度,而是为了减小文件大小。特别是 BU 组:
【讨论】:
用于查找二进制序列,如 101000000000000000010000001 检测序列0000,0001,001,01,1
【讨论】:
我假设您使用的是 matlab 中的图像处理工具箱。
区分图像中的文本。您可能想关注:
通过反复试验,您将获得适当的系数,以便您在第 5 步之后获得的图像将包含围绕每个字母/单词/行/段落的凸区域。
注意:
查看在线文档中的“文档中的示例”部分或参考 Matlab 帮助菜单中的图像处理工具箱文档。
那里给出的示例将指导您正确调用函数及其各种格式。
【讨论】: