机器学习分类器的主要假设（LG、SVM 和决策树）答案

【问题标题】：Major assumptions of machine learning classifiers (LG, SVM, and decision trees)机器学习分类器的主要假设（LG、SVM 和决策树）
【发布时间】：2016-05-27 02:42:55
【问题描述】：

在经典统计中，人们通常会陈述假设的假设（即数据的正态性和线性，数据的独立性）。但是当我阅读机器学习教科书和教程时，基本假设并不总是明确或完整地陈述。以下 ML 分类器对二元分类的主要假设是什么，哪些不那么重要，哪些必须严格坚持？

逻辑回归
支持向量机（线性和非线性内核）
决策树

【问题讨论】：

标签： machine-learning svm decision-tree logistic-regression

【解决方案1】：

IID 是几乎所有统计学习方法的基本假设。

逻辑回归是 GLM（广义线性模型）的一个特例。所以尽管有一些技术要求，但最严格的限制在于数据分布的具体分布。数据必须具有指数族分布。您可以在https://en.wikipedia.org/wiki/Generalized_linear_model 中深入挖掘，Stanford CS229 讲座笔记1 也对这个主题进行了很好的介绍。

SVM 对输入数据非常宽容，尤其是软边距版本。我不记得任何具体的数据假设（请正确）。

决策树讲述的故事与 SVM 相同。

【讨论】：

【解决方案2】：

好问题。

逻辑回归还假设以下内容：

自变量之间不存在（或很少）多重共线性（高相关性）。
尽管 LR 不要求因变量和自变量线性相关，但它确实要求自变量与对数几率线性相关。对数赔率函数就是log(p/1-p)。

【讨论】：