机器学习分类：目标变量几乎完全属于一类

【问题标题】：Machine Learning Classification: Target variable almost completely one class机器学习分类：目标变量几乎完全属于一类
【发布时间】：2016-07-22 11:09:14
【问题描述】：

我有一个目标变量，它可以是 0 或 1，其中 99.34% 是 0（总共大约 50,000 个条目）。逻辑回归和朴素贝叶斯都只是预测全零。有人对这类问题有建议吗？我想确定特征的重要性。干杯

编辑：我有大约 10 个要预测的特征

【问题讨论】：

标签： machine-learning classification

【解决方案1】：

一种可能性是为训练示例赋予权重，以便损失函数中 1 类的示例比 0 类的示例更重要。我不确定您使用的是什么语言/库，但例如在scikit-learn 的 LogisticRegression 有一个名为 class_weight 的参数可以为您解决这个问题（通过将其设置为 'balanced' 或自行选择）。或者，如果您从头开始实施逻辑回归，您可以轻松地将这些权重添加到您的损失函数中；它不会使梯度计算变得更复杂。

【讨论】：