【问题标题】:Binning Imbalanced Data分箱不平衡数据
【发布时间】:2016-05-17 01:19:26
【问题描述】:

我有一个不平衡的数字数据集,如下所示:

我需要将数据分箱到 8 个箱中,但是如果我将箱设置为相同大小,我将只将所有数据放入两个箱中,而中间的其余部分将为空。

有没有一种统计或数学方法,可以在数据点很多时用细粒度的 bin 离散化数据,然后在数据点少的时候将其变成更粗粒度的 bin?

【问题讨论】:

  • 这是一个 x -> x 函数,那么为什么需要分桶呢?
  • 该图只是为了可视化我的数据的样子,我有一个数值向量:(length=4964, min=1, max= 7478, mean=5.045, stdDev=106.6) 和我想将它们离散化为 8 个 bin。

标签: machine-learning dataset data-mining binning discretization


【解决方案1】:

可以对数据进行排序并根据rank分类。有时也称为“深度”。所以如果你排序后的数据是

[1, 2, 4, 8, 16, 32]

你想要三个垃圾箱。你会使用

[1, 2] [4, 8] [16, 32]

但是定义 bin 中心和边界的良好逻辑很难吗?您可能会使用平均值:1.5、6、24 作为中心,将最大值和最小值的中值作为单元格边界:[1:3] [3:12] 和 [12:32]。

bin 大小不再有趣,因为它们都应该同样大?但是,如果您有多个变量,则箱的组合可能低于平均水平或高于预期。即表明变量之间的一些依赖关系。

【讨论】:

    猜你喜欢
    • 2020-06-19
    • 1970-01-01
    • 2020-06-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-12-31
    • 2020-06-07
    • 2017-04-19
    相关资源
    最近更新 更多