决策树构造实例

有如下表格的数据,是近两周(14天)的打球情况,特征为天气表现、温度、适度、是否有风4种不同的环境,目标:构造决策树。

机器学习 -- 决策树(Ⅴ决策树构造实例)

问题:拿哪个特征作为根节点?

有4种划分方式如下:

机器学习 -- 决策树(Ⅴ决策树构造实例)

判断依据:信息增益。

(1)求熵。

在14天的数据中,有9天有打球,5天没有打球。所以此时的熵为:

机器学习 -- 决策树(Ⅴ决策树构造实例)

(2)对四个特征进行分析(以下举例outlook特征):

机器学习 -- 决策树(Ⅴ决策树构造实例)

【1】outlook的特征:

机器学习 -- 决策树(Ⅴ决策树构造实例)

 

【2】根据统计的数据,outlook取值分别为sunny,overcast,rainy的概率分别是:5/14,4/14,5/14。

【3】当outlook作为根节点时

熵值计算:新的熵值为:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693

增益:0.940 - 0.693 = 0.247。

【4】同样的方式可以计算出其他特征的信息增益,则选择最大的即可。相当于遍历了一遍特征,找出大哥,然后在其余中继续通过信息查找二哥。

 

相关文章:

  • 2021-04-03
  • 2021-06-29
  • 2021-12-09
  • 2022-01-01
  • 2021-04-27
猜你喜欢
  • 2021-06-08
  • 2022-12-23
  • 2022-12-23
  • 2021-09-14
  • 2021-11-08
  • 2021-11-04
相关资源
相似解决方案