【发布时间】:2017-02-25 00:09:28
【问题描述】:
我正在研究一个类别非常不平衡的分类问题。为了处理这个问题,我使用了带替换的过采样。 (这里建议:http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ )。
然后我将数据集(过采样的)划分为训练集和测试集,并训练朴素贝叶斯算法。当我想测试时,可以使用准确度测量。据我了解,对于样本量少的类,我基本上添加了样本的副本。所以我的 test_set 包含训练集的精确副本。那么混淆矩阵呢,在过采样数据集上使用混淆矩阵是什么意思?这是一个好习惯吗?
【问题讨论】:
-
只是一个一般性的评论——你不能在课堂上用单个示例学到任何东西。收集数量级更多的数据。
标签: machine-learning classification naivebayes