大量数据的 SVM 预测答案

【问题标题】：SVM prediction for large amount of data大量数据的 SVM 预测
【发布时间】：2016-07-15 00:28:18
【问题描述】：

我想对相对大量的数据 (150M) 运行 SVM 分类（具有二进制响应）。因此，我采样了一个训练数据集（大约 50,000 个）并使用 R 中的 svm{e1071} 构建了模型。现在我想将结果应用到整个数据集。我不知道如何在R 中加载和运行如此大的数据集。所以，我需要的是从R 中提取模型参数并在另一个平台上运行它。换句话说，我想为整个数据获得相同的weight.svm（概率）：

model.svm = svm(as.factor(response) ~.,data=predictors, probability=TRUE) 
predict.svm= predict(model.svm,predictors,probability=TRUE)
weight.svm = data.frame(attr(predict.svm,"probabilities"))

有什么建议吗？任何简单的文本/参考来显示这个预测函数在 SVM 中是如何工作的？我应该从model.svm 对象中提取哪些值，例如model.svm$SV 等等？

【问题讨论】：

您可能想调查 PMML：support.zementis.com/entries/…。我没有这家公司的历史，也不能保证，但它声称能够导出各种模型的结构，然后用它们进行预测。

标签： r machine-learning classification svm libsvm

【解决方案1】：

如果您的内核是线性的，您可以使用Pegasos algorithm。您可以在论文的第 7 页找到该算法，它不到 10 行代码，是解决 SVM 优化问题的最快算法之一。

【讨论】：