一、决策树
1.1 原理
顾名思义,决策树就是用一棵树来表示我们的整个决策过程。这棵树可以是二叉树(比如CART只能是二叉树),也可以是多叉树(比如ID3、C4.5可以是多叉树或二叉树)。
根节点包含整个样本集,每个叶节点都对应一个决策结果(注意,不同的叶节点可能对应同一个决策结果),每一个内部节点都对应一次决策过程或者说是一次属性测试。从根节点到每个叶节点的路径对应一个判定测试序列。
举个例子:
就像上面这个例子,训练集由三个特征:outlook(天气),humidity(湿度),windy(是否有风)。那么我们该如何选择特征对训练集进行划分那?连续型特征(比如湿度)划分的阈值又是如何确定的那?