【发布时间】:2018-12-14 16:15:40
【问题描述】:
我有以下不平衡数据集,其中包含从 1 到 10 的葡萄酒评级。班级余额如下:
评分/# 样本 (%)
- 1 - 0 (0.0%)
- 2 - 0 (0.0%)
- 3 - 10 (0.74%)
- 4 - 53 (3.90%)
- 5 - 577 (42.5%)
- 6 - 535 (39.40%)
- 7 - 167 (12.29%)
- 8 - 17 (1.25%)
- 9 - 0 (0.0%)
- 10 - 0 (0.0%)
由于我无法获得更多数据,对于这种不平衡的数据,使用 Scikit-Learning 预测费率的最佳方法是什么? SMOTE 可以应用于这种情况吗?
谢谢大家!
【问题讨论】:
-
由于你没有任何关于类(1,2,9,10)的数据,你不能简单地在 scikit 的机器学习中使用它们。至于其他类,这个问题太笼统了。你有没有尝试过什么?表现如何?您正在使用哪些算法?特征类型有哪些?
-
您的样本总数是多少。例如,其中有多少是 0.74%?
-
你的训练数据是什么?
-
如果我是正确的,OP 只是想在值是完整集时预测 1、2、9、10 类中值的分布。我现在正在研究一种统计方法,只需几秒钟。
标签: python machine-learning scikit-learn dataset data-science