【发布时间】:2015-11-03 01:03:39
【问题描述】:
我正在使用 Libsvm 对书面文本进行分类。 (性别分类)
我在理解如何创建具有多种功能的 Libsvm 训练数据时遇到问题。
Libsvm 中的训练数据是这样构建的:
label index1:value1 index2:value2
假设我想要这些功能:
- Top_k 个词:k 个按标签最常用的词
- Top_k 二元组:k 个最常用的二元组
因此,例如,计数将如下所示:
Word count Bigram count
|-----|-----------| |-----|-----------|
|word | counts | |bigra| counts |
|-----|-----|-----| |-----|-----|-----|
index |text | +1 | -1 | index |text | +1 | -1 |
|-----|-----|-----| |-----|-----|-----|
1 |this | 3 | 3 | 4 |bi | 6 | 2 |
2 |forum| 1 | 0 | 5 |gr | 10 | 3 |
3 |is | 10 | 12 | 6 |am | 8 | 10 |
|... | .. | .. | |.. | .. | .. |
|-----|-----|-----| |-----|-----|-----|
假设 k = 2,这是训练实例的样子吗?(计数与之前无关)
Label Top_kWords1:33 Top_kWords2:27 Top_kBigrams1:30 Top_kBigrams2:25
或者看起来像这样(功能混合时是否重要)?
Label Top_kWords1:33 Top_kBigrams1:30 Top_kWords2:27 Top_kBigrams2:25
我只是想知道具有多个不同特征的特征向量如何以及如何实现。
编辑:
根据上面更新的表格,这个训练数据是否正确?:
例子
1 1:3 2:1 3:10 4:6 5:10 6:8
-1 1:3 2:0 3:12 4:2 5:3 6:10
【问题讨论】:
标签: machine-learning libsvm word-count feature-selection