【发布时间】:2018-05-20 12:55:53
【问题描述】:
我有一个不平衡的数据集,其中 200000 个描述属于 0 类,而 10000 个描述属于 1 类。但是,在我的训练数据集中,我有相同数量的“正”和“负”样本,每个大约 8000 个。所以现在我对如何正确使用分类器的“class_weight”选项感到困惑。似乎只有在训练数据中“正”和“负”样本的数量与整个数据集中相同的情况下才有效。在这种情况下,它将是 8000 个“正”和 160000 个“负”,这实际上是不可行的。减少“阳性”样本的数量似乎也不是一个好主意。还是我错了?
【问题讨论】:
-
您没有对训练集进行分层有什么特别的原因吗?拥有代表数据的训练集通常很有用。
-
这个问题似乎以当前形式的 IMO 与算法而不是编程问题更相关。请将此张贴在stats.stackexchange.com。
-
@ncfirth 抱歉,您能详细说明一下吗?你的意思是“正”类的数量与我期望在整个数据集中的数量成比例?我有这 16000 个描述,这些描述是我从整个数据集中用不同的关键字提取的,基本上是手动检查的。现在我正在尝试通过机器学习从整个数据集中提取更多描述。我只是假设它是稀疏的。如果您有任何想法或论文建议,我将非常感激!
-
@VivekKumar 可能你是对的,或者这更像是一个概念问题。
-
看看here
标签: machine-learning scikit-learn random-forest