【问题标题】:Machine learning algorithm for few samples and features少样本和特征的机器学习算法
【发布时间】:2017-10-27 15:40:48
【问题描述】:

我打算做一个是/否分类器。问题是数据不是来自我,所以我必须使用我得到的东西。我有大约 150 个样本,每个样本包含 3 个特征,这些特征是连续的数值变量。我知道数据集很小。我想问你两个问题:

A) 最好的机器学习算法是什么?支持向量机?神经网络?我读过的所有内容似乎都需要一个大数据集。

B)我可以通过添加一些不包含所有特征的样本来使数据集更大一点,只有一两个。我读过你可以在这种情况下使用稀疏向量,这对每个机器学习算法都可行吗? (我在 SVM 中见过它们)

非常感谢您的帮助!!!

【问题讨论】:

  • 您能否包含可视化数据分布的图,例如按类别成员着色的二维散点图。任何不回答的尝试都只是猜测
  • 下周某个时候我才会收到数据,我目前正在准备算​​法对不起,一旦我有它们我会发布它们

标签: machine-learning neural-network svm sparse-file


【解决方案1】:

我的建议是使用简单直接的算法,例如 决策树逻辑回归,不过,您所指的算法应该同样适用。

数据集大小应该不是问题,因为您的样本远多于变量。但拥有更多数据总是有帮助

【讨论】:

  • 好的,非常感谢,我会尝试这两个样本,我还应该保留这 25% 的样本进行测试吗?
  • 顺便说一句,我知道阅读有关 SVM,并且有很多类型,svm,svr,nusvm,nusvr..... 是否有论文或什么在每个时解释应该使用其中的哪些?
  • 当然,您应该使用方便的分区进行测试。另一种选择是交叉验证,例如。 G。 10 折交叉验证。
  • 不要因每种算法的多种变体而失去理智。专注于标准的,随着时间和经验的积累,您的工作流程会自然而然地发生变化。这就像尝试应用所有不同类型的 [在此处插入您最喜欢的算法]。假设神经网络……矫枉过正。
  • 您可以使用它们,但由于信息不完整,它们的价值会降低。通常的程序是主要使用平均值或中值来完成缺失值,但由于缺少信息,您将引入“噪声”。除非绝对必要,否则我的建议是只坚持完整的样本。
【解决方案2】:

朴素贝叶斯对于训练示例很少的情况是一个不错的选择。与逻辑回归相比,Ng 和 Jordan 表明,朴素贝叶斯通过更少的训练示例更快地收敛到其最佳性能。 (参见book chapter 的第 4 节。)通俗地说,朴素贝叶斯模型在这种情况下表现更好的联合概率分布。

在这种情况下不要使用决策树。决策树有过度拟合的倾向,当训练数据很少时,这个问题会更加严重。

【讨论】:

    猜你喜欢
    • 2019-05-30
    • 1970-01-01
    • 2016-08-30
    • 1970-01-01
    • 2017-10-26
    • 1970-01-01
    • 1970-01-01
    • 2011-07-21
    • 1970-01-01
    相关资源
    最近更新 更多