【发布时间】:2013-05-11 07:50:54
【问题描述】:
我正在使用一个数据集来预测一个人是否患有糖尿病。如果在我的数据集中,糖尿病的负面观察数量是正面观察的 10 倍,是否已经考虑到我的贝叶斯算法只会学习和预测负面结果,因为它的观察结果比另一个多?
【问题讨论】:
标签: bayesian bayesian-networks
我正在使用一个数据集来预测一个人是否患有糖尿病。如果在我的数据集中,糖尿病的负面观察数量是正面观察的 10 倍,是否已经考虑到我的贝叶斯算法只会学习和预测负面结果,因为它的观察结果比另一个多?
【问题讨论】:
标签: bayesian bayesian-networks
假设您之前的结果概率是:P(not_diabetic) = 0.9 和 P(diabetic) = 0.1。
这是一个训练集不平衡的例子,会对学习者的行为产生不利影响。将 P(diabetic)>0.5 的病例分类为糖尿病,将其余病例分类为非糖尿病不会在您的病例中产生良好的结果。
当您验证分类器时,您需要使用一种将训练集的不平衡先验对后验概率的影响考虑在内的方法,例如Bayesian information Reward。
您可以查看paper,了解不平衡训练集对贝叶斯分类器的影响的一般性讨论。
【讨论】: