【发布时间】:2013-12-16 12:00:39
【问题描述】:
更一般的问题,但由于我使用的是 R -> 标签
我的训练数据集有 15,000 个条目,其中大约 20 个我想用于正数据集 -> 构建 svm。我想将剩余的重采样数据集用作我的负数据集,但我想知道,与负数据集采用相同大小(大约 20)可能会更好,否则它是高度 imbalanced?在 1000 轮重采样后,是否有一种简单的方法来池化 R 中的分类器(基于集合)? (甚至使用e1071 包)
后续问题:我想在之后为每个预测计算一个分数,是否可以将概率乘以 100?
谢谢
【问题讨论】:
-
它有点笼统,但措辞也模棱两可。条目=功能?或样品?我猜是20个样本?我建议你查看
caret包的网页,它对此类问题有非常清楚的解释:caret.r-forge.r-project.org/index.html -
感谢 stephen,features = 5,20 个样本,scusi!
标签: r machine-learning classification svm training-data