【发布时间】:2011-12-10 19:41:42
【问题描述】:
我正在尝试使用支持向量机 (SVM) 进行文档分类。我拥有的文件是电子邮件的集合。我有大约 3000 个文档来训练 SVM 分类器,并且有一个大约 700 个测试文档集,我需要对其进行分类。
我最初使用二进制 DocumentTermMatrix 作为 SVM 训练的输入。使用测试数据进行分类的准确率约为 81%。 DocumentTermMatrix 是在删除几个停用词后使用的。
因为我想提高这个模型的准确度,我尝试使用基于 LSA/SVD 的降维,并将得到的降维因子用作分类模型的输入(我尝试使用 20、50、100 和 200 个奇异值从约3000字的原始包)。在每种情况下,分类的性能都变差了。 (使用 LSA/SVD 的另一个原因是为了克服具有 65 个级别的响应变量之一的记忆问题。
有人可以提供一些关于如何提高 LSA/SVD 分类性能的建议吗?我意识到这是一个没有任何具体数据或代码的一般问题,但希望专家提供一些关于从何处开始调试的意见。
仅供参考,我正在使用 R 进行文本预处理(包:tm、雪球、lsa)和构建分类模型(包:kernelsvm)
谢谢。
【问题讨论】:
-
分类时是否使用了同样的低排名转换?您的测试文档向量也必须降维。
标签: svm text-mining document-classification latent-semantic-indexing