最佳数据挖掘/分类技术[关闭]答案

【问题标题】：best datamine/classification techniques [closed]最佳数据挖掘/分类技术[关闭]
【发布时间】：2016-08-25 06:50:06
【问题描述】：

是否存在一些常用的强大的数据分析技术，这些技术是通用的，适用于各种情况下的各种数据？

例如，我需要对新数据进行分类。我已经有了它的分类。我需要尝试（我的想法示例如下）：

尝试应用 PCA，然后应用 RandomForestDecisions；
通过方法 X（在 python 中使用 lib A）找到最重要的列，然后应用 Kohonen 网络 使用这种方式的所有数据；
尝试 SVM 与 马尔可夫链（请参阅 R 中的 this example 和 Mathematica 中的 this ，并在结果上使用K-nearest method改进结果；
使用此工具包来查找数据异常，并尝试通常的反向传播NN（如此处）或递归神经网络 喜欢这里；
在线性分类器（我的意思是this）上结合遗传算法（如this）。

例如，我了解到 xgboost *算法赢得了很多机器学习任务和比赛。

我觉得宇航员/宇航员在当前大量的数据挖掘工具和算法中潜入无限，并为可行的结果寻找正确但又强大的方法。感谢您对任何带有链接的 ML 原则的结构性愿景）

【问题讨论】：

【解决方案1】：

您是在问这些是否是有效的监督学习技术？如果是这样，是的，你可以尝试所有这五个，看看哪一个给你最好的结果。使用哪种方法实际上取决于您的应用程序。

PCA 减少了数据的维度/特征的数量。这通常是最近邻（特征脸等）等无监督学习方法的预处理步骤，但确实可以与随机森林或其他决策树/装袋方法一起使用，以使您的代码运行得更快并减少方差。

SVM (http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)、QDA、LDA、逻辑回归（可能带有内核）是您可以尝试的众多方法之一。

为简单起见，您还可以尝试用一个隐藏层训练一个神经网络，看看效果如何。如果你的输出层不是太大（~10），选择一个合理的隐藏层大小（~200），并且有一个相对大的输入层大小（~60000），这样一个网络的基本实现可以给你一个分类精度约 97%。

但同样，这取决于你想做什么。

【讨论】：