【发布时间】:2011-08-09 12:36:10
【问题描述】:
我正在尝试使用 SVM 进行新闻文章分类。
我创建了一个表格,其中包含作为行的特征(在文档中找到的唯一词)。
我用这些特征创建了权重向量映射。即,如果文章有一个词是特征向量表的一部分,则该位置被标记为1,否则为0。
例如:- 生成的训练样本...
1 1:1 2:1 3:1 4:1 5:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16:1 17:1 18:1 19:1 20:1 21:1 22:1 23:1 24:1 25:1 26:1 27:1 28:1 29:1 30:1
由于这是第一个文档,所有功能都存在。
我使用1、0 作为类标签。
我正在使用 svm.Net 进行分类。
我给300权重向量手动分类为训练数据,生成的模型将所有向量作为支持向量,这肯定是过拟合。
我的总特征(特征向量数据库表中的unique words/row count)是7610。
可能是什么原因?
由于这种过度拟合,我的项目现在处于非常糟糕的状态。它将每一篇可用的文章归类为正面文章。
在LibSVM二元分类中,类标签有什么限制吗?
我正在使用0、1 而不是-1 和+1。有问题吗?
【问题讨论】:
标签: c# .net machine-learning svm libsvm