1.特征选择
要领:最大可能选择区分度大的特征,比如下图将两个群体划分的较为明确。
数据挖掘 笔记(4)

2.熵(Entrophy)
比如有有一个人让你猜,是男是女,此时猜中的可能性(区分度)很低。
在熵中,这个事件为1,即非常不确定。
此时给一个distribution的情况,比如90%的烟民是男人,则区分度大大提高。
数据挖掘 笔记(4)

图中给出了一个熵的公式:
当熵=1,不确定性最高
若给出事件:不抽烟的20%是男生,80%是女生
抽烟的95%是男生,5%是女生。
加以权重,比例为0.5477,由此我们得到了0.4523的information gain(信息增益)

3.利用单调性减少计算
数据挖掘 笔记(4)

若(2,3)的熵高于(1,3,4,5)。则第三分支整个不用继续计算。

相关文章:

  • 2021-06-19
  • 2022-01-18
  • 2021-10-12
  • 2022-12-23
  • 2021-09-10
  • 2021-10-14
猜你喜欢
  • 2021-04-29
  • 2021-07-06
  • 2021-12-28
  • 2021-12-18
  • 2021-12-12
  • 2021-09-02
相关资源
相似解决方案