【发布时间】:2016-07-22 11:09:14
【问题描述】:
我有一个目标变量,它可以是 0 或 1,其中 99.34% 是 0(总共大约 50,000 个条目)。逻辑回归和朴素贝叶斯都只是预测全零。有人对这类问题有建议吗?我想确定特征的重要性。 干杯
编辑:我有大约 10 个要预测的特征
【问题讨论】:
标签: machine-learning classification
我有一个目标变量,它可以是 0 或 1,其中 99.34% 是 0(总共大约 50,000 个条目)。逻辑回归和朴素贝叶斯都只是预测全零。有人对这类问题有建议吗?我想确定特征的重要性。 干杯
编辑:我有大约 10 个要预测的特征
【问题讨论】:
标签: machine-learning classification
一种可能性是为训练示例赋予权重,以便损失函数中 1 类的示例比 0 类的示例更重要。我不确定您使用的是什么语言/库,但例如在scikit-learn 的 LogisticRegression 有一个名为 class_weight 的参数可以为您解决这个问题(通过将其设置为 'balanced' 或自行选择)。或者,如果您从头开始实施逻辑回归,您可以轻松地将这些权重添加到您的损失函数中;它不会使梯度计算变得更复杂。
【讨论】: