【发布时间】:2010-11-11 02:15:13
【问题描述】:
我正在使用mutual information gain 作为拆分函数构建一个二元分类树。但由于训练数据偏向少数类,建议通过逆类频率对每个训练示例进行加权。
如何加权训练数据?在计算估计熵的概率时,我是否采用加权平均?
编辑:我想要一个带有权重的熵表达式。
【问题讨论】:
-
反类频率不是你的权重因子吗?
-
是的,正如问题中提到的,“建议通过逆类频率对每个训练示例进行加权。”
-
我假设你已经知道 Wiki 信息。那么你想解决什么问题呢?
-
好的,我已经编辑了问题并评论了答案以反映新的变化。
标签: machine-learning entropy decision-tree