【问题标题】:best datamine/classification techniques [closed]最佳数据挖掘/分类技术[关闭]
【发布时间】:2016-08-25 06:50:06
【问题描述】:

是否存在一些常用的强大的数据分析技术,这些技术是通用的,适用于各种情况下的各种数据?

例如,我需要对新数据进行分类。我已经有了它的分类。我需要尝试(我的想法示例如下):

  1. 尝试应用 PCA,然后应用 RandomForestDecisions
  2. 通过方法 X(在 python 中使用 lib A)找到最重要的列,然后应用 Kohonen 网络 使用这种方式的所有数据;
  3. 尝试 SVM马尔可夫链(请参阅 R 中的 this exampleMathematica 中的 this ,并在结果上使用K-nearest method改进结果;
  4. 使用此工具包来查找数据异常,并尝试通常的反向传播NN(如此处)或递归神经网络 喜欢这里;
  5. 线性分类器(我的意思是this)上结合遗传算法(如this)。

例如,我了解到 xgboost *算法赢得了很多机器学习任务和比赛。

我觉得宇航员/宇航员在当前大量的数据挖掘工具和算法中潜入无限,并为可行的结果寻找正确但又强大的方法。感谢您对任何带有链接的 ML 原则的结构性愿景)

【问题讨论】:

    标签: machine-learning neural-network data-mining data-analysis toolkit


    【解决方案1】:

    您是在问这些是否是有效的监督学习技术?如果是这样,是的,你可以尝试所有这五个,看看哪一个给你最好的结果。使用哪种方法实际上取决于您的应用程序。

    PCA 减少了数据的维度/特征的数量。这通常是最近邻(特征脸等)等无监督学习方法的预处理步骤,但确实可以与随机森林或其他决策树/装袋方法一起使用,以使您的代码运行得更快并减少方差。

    SVM (http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)、QDA、LDA、逻辑回归(可能带有内核)是您可以尝试的众多方法之一。

    为简单起见,您还可以尝试用一个隐藏层训练一个神经网络,看看效果如何。如果你的输出层不是太大(~10),选择一个合理的隐藏层大小(~200),并且有一个相对大的输入层大小(~60000),这样一个网络的基本实现可以给你一个分类精度约 97%。

    但同样,这取决于你想做什么。

    【讨论】:

      猜你喜欢
      • 2012-10-15
      • 2019-03-24
      • 1970-01-01
      • 1970-01-01
      • 2012-09-21
      • 2015-04-30
      • 2011-05-17
      • 2014-02-02
      • 1970-01-01
      相关资源
      最近更新 更多