【发布时间】:2016-05-05 12:45:54
【问题描述】:
我目前正在尝试训练一个朴素贝叶斯分类器,以帮助我对数据集进行分类。每个数据集都是一个包含不同可能事件的日志。我总共有大约 150 个事件被我编码为日志的属性,因此它显示了它们发生的频率。
我总共有大约 600 个可用的数据集,其中 400 个用于训练子集,其余 200 个用于测试子集。
在创建模型并将其应用于测试子集时,会发生一些奇怪的事情:大多数测试数据集被归类为在训练数据集中以最低频率出现的类别。 大多数在训练数据中表现得很好的类根本不会显示为分类结果。不是你所期望的,也不是正确的。
如果需要代码,我会稍后发布 - 但我认为这与朴素贝叶斯的工作方式以及我的数据结构有关。
感谢您的帮助!
【问题讨论】:
-
我认为我的问题与所谓的 Skewed data bias 有关。我将尝试应用另一种分类方法。
标签: r machine-learning naivebayes