【发布时间】:2020-07-01 21:35:55
【问题描述】:
我有一个RDD[Double],我想把RDD分成k等间隔,然后统计RDD中每个等距离间隔的个数。
例如,RDD 类似于 [0,1,2,3,4,5,6,6,7,7,10]。我想把它分成10等间隔,所以间隔是[0,1), [1,2), [2,3), [3,4), [4,5), [5,6), [6,7), [7,8), [8,9), [9,10]。
如您所见,RDD 的每个元素都将位于其中一个区间内。然后我想计算每个间隔的数量。这里,[0,1),[1,2),[2,3),[3,4),[4,5),[5,6) 中有一个元素,[6,7) 和[7,8) 都有两个元素。 [9,10] 有一个元素。
最后我希望有一个像array([1,1,1,1,1,1,2,2,0,1] 这样的数组。
【问题讨论】:
标签: apache-spark pyspark