【发布时间】:2014-02-05 16:02:13
【问题描述】:
我能够在使用 Hadoop MapReduce 进行数据挖掘时执行几个预处理步骤。 其中之一就是标准化。 说
100,1:2:3
101,2:3:4
进入
100 1
100 2
100 3
101 2
101 3
101 4
同样,我可以对数值数据进行分箱,比如 iris.csv。
我算出了它背后的数学原理
虹膜数据集:http://archive.ics.uci.edu/ml/datasets/Iris
-
找出每个属性的最小值和最大值 在数据集中。
萼片长度|萼片宽度|花瓣长度|花瓣宽度
最小 | 4.3| 2.0 | 1.0| 0.1
最大 | 7.9 | 4.4 |6.9 | 2.5
然后,我们应该将每个属性的数据值分成‘n’个桶。 比如说,n=5。
Bucket Width= (Max - Min) /n
Sepal Length= (7.9-4.3)/5= 0.72
So, the intervals will be as follows :
4.3 - 5.02
5.02 - 5.74
Likewise,
5.74 -6.46
6.46 - 7.18
7.18- 7.9
继续所有属性
我们能在 Mapreduce 中做同样的事情吗? 请提出建议。
【问题讨论】: