不平衡类的随机抽样答案

【问题标题】：random sampling of imbalance class不平衡类的随机抽样
【发布时间】：2019-07-18 15:23:07
【问题描述】：

我有一个包含大约 9,00,000 条记录的大型数据集。我的目标变量包含布尔值 0 和 1。

1 = Affected record
0 = Normal records

问题是我的完整数据集仅包含 1904 条记录作为受影响的帐户。

随机抽样的最佳方法是什么（至少使用 100000 条记录来训练模型）以避免偏差和过度拟合我的模型对多数类的影响。

SMOTE 会是一个不错的选择吗？

【问题讨论】：

【解决方案1】：

您可以使用异常检测模型。首先，训练你想要的数据集数量（比如 0.1 Mn）并计算数据的均值和方差。然后，您可以使用验证集（标记数据）来找到一些阈值。然后，您可以通过查看该值的概率来确定样本是否异常。

p(x) 异常 p(x) > epsilon(threshold) ---> 不是异常

【讨论】：