少样本和特征的机器学习算法答案

【问题标题】：Machine learning algorithm for few samples and features少样本和特征的机器学习算法
【发布时间】：2017-10-27 15:40:48
【问题描述】：

我打算做一个是/否分类器。问题是数据不是来自我，所以我必须使用我得到的东西。我有大约 150 个样本，每个样本包含 3 个特征，这些特征是连续的数值变量。我知道数据集很小。我想问你两个问题：

A) 最好的机器学习算法是什么？支持向量机？神经网络？我读过的所有内容似乎都需要一个大数据集。

B)我可以通过添加一些不包含所有特征的样本来使数据集更大一点，只有一两个。我读过你可以在这种情况下使用稀疏向量，这对每个机器学习算法都可行吗？（我在 SVM 中见过它们）

非常感谢您的帮助！！！

【问题讨论】：

【解决方案1】：

我的建议是使用简单直接的算法，例如 决策树 或 逻辑回归，不过，您所指的算法应该同样适用。

数据集大小应该不是问题，因为您的样本远多于变量。但拥有更多数据总是有帮助。

【讨论】：

好的，非常感谢，我会尝试这两个样本，我还应该保留这 25% 的样本进行测试吗？
顺便说一句，我知道阅读有关 SVM，并且有很多类型，svm，svr，nusvm，nusvr..... 是否有论文或什么在每个时解释应该使用其中的哪些？
当然，您应该使用方便的分区进行测试。另一种选择是交叉验证，例如。 G。 10 折交叉验证。
不要因每种算法的多种变体而失去理智。专注于标准的，随着时间和经验的积累，您的工作流程会自然而然地发生变化。这就像尝试应用所有不同类型的 [在此处插入您最喜欢的算法]。假设神经网络……矫枉过正。
您可以使用它们，但由于信息不完整，它们的价值会降低。通常的程序是主要使用平均值或中值来完成缺失值，但由于缺少信息，您将引入“噪声”。除非绝对必要，否则我的建议是只坚持完整的样本。

【解决方案2】：

朴素贝叶斯对于训练示例很少的情况是一个不错的选择。与逻辑回归相比，Ng 和 Jordan 表明，朴素贝叶斯通过更少的训练示例更快地收敛到其最佳性能。（参见book chapter 的第 4 节。）通俗地说，朴素贝叶斯模型在这种情况下表现更好的联合概率分布。

在这种情况下不要使用决策树。决策树有过度拟合的倾向，当训练数据很少时，这个问题会更加严重。

【讨论】：