如何在 libsvm 中为训练和测试文件创建源数据文件？

【问题标题】：How to create source data file for training and testing file in libsvm?如何在 libsvm 中为训练和测试文件创建源数据文件？
【发布时间】：2017-01-14 13:51:57
【问题描述】：

我想使用数据集来训练模型。该数据集具有三种不同类型的生理数据。类型 1、类型 2 和类型 3。libSVM 的格式如下：标签 index1:value1 index2:value2....

现在，我将类型 1 的标签设为 1，类型 2 设为 2，类型 3 设为 3。所有值都保存为 1:(value)。所以，我的训练和测试文件如下。

1 1: 值 \n 1 1: 值 \n 1 1: 值 \n 1 1: 值 \n 1 1: 值 \n . . . 1 1: 值 \n 2 1: 值 \n 2 1: 值 \n 2 1: 值 \n 2 1: 值 \n 2 1: 值 \n . . . 2 1: 值 \n 3 1: 值 \n 3 1: 值 \n 3 1: 值 \n 3 1: 值 \n . . . 3 1: 值 \n

所以，我正在用这种源文件训练 svm，并用类似的源文件进行测试。我想确定我是否正确使用了 SVM 数据格式。谢谢

【问题讨论】：

标签： algorithm machine-learning svm libsvm

【解决方案1】：

LIBSVM 的矢量数据集格式定义为

label feature_id1:feature_value1 feature_id2:feature_value2 ...

因此，每个功能（或价值）需要都是自己的唯一标识符。

示例：

假设您有三个不同的类标签1,2,3 和一个由a(id=1),b(id=2),c=(id=3) 组成的特征集，这是通过特征选择机制获得的。

假设我们有三个数据点d1,d2,d3，我们想在我们的数据集中进行描述，例如：

2 1:0.5325 3:0.523

3 2:0.7853 3:0.6326

1 1:0.53265 2:0.5422

意思：

d1 包含功能 a(id=1) 和 c(id=3)
d2 包含功能 b(id=2) 和 c(id=3)
d3 包含功能 a(id=1) 和 b(id=2)

请注意，没有必要为给定数据点中不包含的特征提供feature_id1:feature_value1。

【讨论】：