数据集的决策树和神经网络答案

【问题标题】：decision tree and neural network for dataset数据集的决策树和神经网络
【发布时间】：2018-09-20 07:44:44
【问题描述】：

我正在研究对数据集同时使用决策树和神经网络的优缺点。我一直在互联网上寻找答案，但我似乎发现的只是大局中每个人的利弊。基本上，我试图弄清楚为什么决策树和神经网络对特定数据集有好处。我假设数据集是大还是小，异常值和缺失数据会影响使用决策树或神经网络是准确还是不准确。提前致谢

【问题讨论】：

这不是本网站的真正主题，但我推荐 free Weka online courses 作为介绍如何在 Weka 中使用不同的分类器并自己弄清楚哪种类型（和哪些参数）最适合您的特定数据。

【解决方案1】：

以下是我对选择机器学习模型的看法：

1) 神经网络是最灵活的，有好有坏。对于有数百万个训练示例的任务，神经网络通常表现最好。

2) 如果您的训练示例很少（例如，特征向量的每个维度可能有 10 个或更少的训练示例），那么神经网络将面临过度拟合的风险。灵活性较低的模型（例如决策树或朴素贝叶斯）可能会做得更好。不过，如果您仔细调整元参数以减少过度拟合，您仍然可以在这些情况下使用神经网络。

3) 如果您的训练示例很少，并且您尝试建模的潜在现象过于复杂而无法使用简单的决策边界进行建模，那么任何通用模型都不会表现良好。但是，如果您对现象有先验知识（例如，如果您知道描述它的物理方程的形式），那么您可以制作自己的自定义模型，并使用梯度下降训练其未知参数。

Andrew Ng's free machine learning course 是一个很好的资源，它讨论了一些关于过拟合和模型选择的经验法则和直觉。

【讨论】：