【问题标题】:random sampling of imbalance class不平衡类的随机抽样
【发布时间】:2019-07-18 15:23:07
【问题描述】:

我有一个包含大约 9,00,000 条记录的大型数据集。 我的目标变量包含布尔值 0 和 1。

1 = Affected record
0 = Normal records

问题是我的完整数据集仅包含 1904 条记录作为受影响的帐户。

随机抽样的最佳方法是什么(至少使用 100000 条记录来训练模型)以避免偏差和过度拟合我的模型对多数类的影响。

SMOTE 会是一个不错的选择吗?

【问题讨论】:

  • 这个问题对 SO 来说太宽泛了;类不平衡本身就是一个巨大的子主题,有几种技术可以处理它。我建议您开始使用 Google 搜索...
  • 如果您的正数据量较少,您可以使用异常检测模型,该模型适用于此类倾斜案例。

标签: machine-learning classification


【解决方案1】:

您可以使用异常检测模型。首先,训练你想要的数据集数量(比如 0.1 Mn)并计算数据的均值和方差。然后,您可以使用验证集(标记数据)来找到一些阈值。然后,您可以通过查看该值的概率来确定样本是否异常。

p(x) 异常 p(x) > epsilon(threshold) ---> 不是异常

【讨论】:

    猜你喜欢
    • 2018-05-14
    • 2012-02-01
    • 1970-01-01
    • 2016-04-22
    • 2016-09-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多