SVM 灯的训练和测试文件答案

【问题标题】：Train and Test file for SVM lightSVM 灯的训练和测试文件
【发布时间】：2013-08-05 05:16:21
【问题描述】：

我正在尝试将 SVM 用于文本分类问题。我发现了一个名为 SVM light 的 SVM 实现及其派生的 SVM 多类（用于超过 2 个类的分类问题）。但是我真的无法理解用于训练和测试分类器的文件格式。我知道我需要创建一个特征向量（让我们假设我将文档中的每个单词作为一个特征）然后对于每个文档我必须指定它的类，它包含的特征（实际上是特征的索引）特征向量）和一个特征值来创建训练文件。我对这个“特征价值”感到困惑。可能是什么？这是本文档中该功能的计数吗？或者是别的什么？该网站包含的示例火车文件没有整数作为特征值，这表明形成特征值的不是频率

我还想知道是否有一些工具/软件可以从一个简单的文档创建这个训练文件。我通常使用 Java；所以Java中的一些包可以做到这一点对我来说也足够了。我尝试搜索 Google，但找不到任何相关内容。

我也想知道是否有其他更好的方法可以使用 SVM 进行文本分类。

在这方面的任何帮助将不胜感激。

【问题讨论】：

标签： machine-learning svm svmlight

【解决方案1】：

可以使用简单的二进制特征（单词是否出现？）或简单计数。但是您可能希望通过计数的对数来缩放简单计数（更频繁的单词更重要，但出现 10 次的单词并不比出现一次的单词重要 10 倍）。

您还可以通过考虑单词在所有文档中出现的频率等来衡量计数（即使单词the 在文档中经常出现，它并没有真正说明文档的本来面目一般非常频繁）。看看tf-idf。

SVM 是正确的选择吗？我想说找到正确的特征比精确的算法更重要，尤其是在早期阶段。

【讨论】：

功能本身呢？如果特征是词袋，那么特征是否会增加数字序列？