【发布时间】:2020-06-27 19:39:50
【问题描述】:
我正在构建一个预测模型,在该模型上预测客户是否会再次订阅。我已经有了数据集,问题是它不平衡(NO 多于 YES)。我相信我的模型是有偏差的,但是当我检查训练集和测试集的准确率时,准确率非常接近(训练集为 0.8879,测试集为 0.8868)。我感到困惑的原因是,如果我的模型有偏差,为什么我的训练和测试集的准确性接近?还是我的模型没有偏见?
【问题讨论】:
-
实际的“否”与“是”比率是多少?此外,准确性对于不平衡的类来说是一个糟糕的指标,具体取决于您需要在不同指标上评估的目标。现在,除此之外,我真的不认为这个问题适合 SO,似乎更具理论性,而不是其他任何与编程相关的东西,更适合统计或机器学习 stackexchange。
-
否 36548 是 4640
-
不平衡的数据集和有偏差的模型是两个不同的问题;前者是数据集的属性,而后者涉及学习算法及其训练方式。
标签: machine-learning imbalanced-data