【发布时间】:2016-05-17 01:19:26
【问题描述】:
我有一个不平衡的数字数据集,如下所示:
。
我需要将数据分箱到 8 个箱中,但是如果我将箱设置为相同大小,我将只将所有数据放入两个箱中,而中间的其余部分将为空。
有没有一种统计或数学方法,可以在数据点很多时用细粒度的 bin 离散化数据,然后在数据点少的时候将其变成更粗粒度的 bin?
【问题讨论】:
-
这是一个 x -> x 函数,那么为什么需要分桶呢?
-
该图只是为了可视化我的数据的样子,我有一个数值向量:(length=4964, min=1, max= 7478, mean=5.045, stdDev=106.6) 和我想将它们离散化为 8 个 bin。
标签: machine-learning dataset data-mining binning discretization