树模型(分类或回归)

决策树

树的基本结构机器学习-树模型

示例
机器学习-树模型
机器学习-树模型定义
决策树在分类问题中,表示基于特征对实例空间进行划分的方法。可以视为if-then规则的集合,也可以认为是定义在特征空间和类空间上的条件概率分布。

步骤

  • 特征选择
    决定选取哪些特征来划分特征空间。
    先引入信息论概念:信息增益
    熵、条件概率、信息增益机器学习-树模型
    机器学习-树模型
    机器学习-树模型
    机器学习-树模型
    对信息增益进行特征选择
    选取信息增益最大的特征
    机器学习-树模型
    机器学习-树模型
    特征的信息增益算法
  • 计算数据集D的熵
    机器学习-树模型
  • 计算特征的条件熵
    机器学习-树模型
  • 计算特征的信息增益
    机器学习-树模型
    !!!这样的算法特性倾向于选择特征离散量较多的特征,但实际往往是由于特征很多而把y分的很细,因而就有了信息增益比修正算法

信息增益比修正算法

  • 计算数据集D关于特征的熵
    机器学习-树模型
  • 计算特征的信息增益比
    机器学习-树模型
  • 决策树生成
    ID3
    基于信息增益特征选择机器学习-树模型
    C4.5
    C4.5算法即将ID3中特征选择算法由信息增益替换为信息增益比

过拟合问题
往往树的规模越大,在模型训练中的拟合效果虽然会更好,但模型的泛化能力会下降,因此需要对决策树进行剪枝。

  • 决策树剪枝
    极小化决策树整体的损失函数或代价函数
    函数定义
    机器学习-树模型
    机器学习-树模型
    混淆矩阵
    机器学习-树模型
    机器学习-树模型
    机器学习-树模型分类回归树CIRT
    假设决策树是二叉树形式,一次特征只能将数据集分为两个类别。

决策树优点

  • 不需要任何领域知识或参数假设
  • 适合高维数据
  • 简单易于理解
  • 短时间内处理大量数据,得到可行且效果较好的结果

决策树缺点

  • 对于各类别样本数量不一致的数据,信息增益偏向于那些具有更多数值的特征
  • 容易过拟合,特别是在特征多的情况下,易引入噪声特征
  • 忽略属性间的相关性
  • 不支持在线学习

相关文章:

  • 2022-12-23
  • 2021-08-27
  • 2021-10-29
  • 2022-03-04
  • 2021-06-10
  • 2021-04-11
  • 2021-11-27
  • 2022-12-23
猜你喜欢
  • 2022-02-19
  • 2022-02-16
  • 2021-06-29
  • 2022-01-05
  • 2021-06-24
  • 2022-12-23
  • 2021-05-20
相关资源
相似解决方案