【发布时间】:2019-07-18 15:23:07
【问题描述】:
我有一个包含大约 9,00,000 条记录的大型数据集。 我的目标变量包含布尔值 0 和 1。
1 = Affected record
0 = Normal records
问题是我的完整数据集仅包含 1904 条记录作为受影响的帐户。
随机抽样的最佳方法是什么(至少使用 100000 条记录来训练模型)以避免偏差和过度拟合我的模型对多数类的影响。
SMOTE 会是一个不错的选择吗?
【问题讨论】:
-
这个问题对 SO 来说太宽泛了;类不平衡本身就是一个巨大的子主题,有几种技术可以处理它。我建议您开始使用 Google 搜索...
-
如果您的正数据量较少,您可以使用异常检测模型,该模型适用于此类倾斜案例。
标签: machine-learning classification