【发布时间】:2016-07-15 13:52:09
【问题描述】:
我一直致力于“双语文档中的脚本识别”。 我想在 matlab 中使用 libsvm 将页面/块分类为 Eng(class 1)、Hindi (class 2) 或 Mixed。但问题是我拥有的训练数据仅包含与印地语和英文页面/块相对应的样本,但没有混合页面。
我想提供的测试数据也可能包含混合页面/块,在这种情况下,我希望它被归类为“混合”。我打算使用置信度分数或概率值来做到这一点。就像如果第 1 类的概率值大于阈值(例如 0.8)并且第 2 类的概率值小于阈值(例如(0.05)),那么它将被分类为第 1 类,反之则为第 2 类。但如果上述两个条件不满足,那么我想将其归类为“混合”。
“libsvmpredict”的第三个返回值是 prob_values,我打算继续使用这个 prob_values 来确定测试数据是印地语、英语还是混合的。但在少数地方我了解到“libsvmpredict”不会产生实际的 prob_values。
有什么方法可以帮助我使用仅由 SVM 中的 2 个类组成的训练数据将测试数据分为 3 个类(印地语、英语、混合)。
【问题讨论】:
-
印地语文本是用拉丁字符写的吗?如果没有,我认为您不需要分类器,因为计算机已经清楚地识别并正确显示英语/印地语字符。也就是说,您可以通过查看(可能是 UTF-8)编码字符来识别该语言。
-
我的文档是印地文/英文书籍的扫描图像,分辨率为 300dpi。我的项目的全部目的是识别输入文档图像的脚本,并根据识别的脚本将其传递给适当的 OCR,然后将图像转换为计算机可读格式。
标签: matlab machine-learning svm libsvm