【发布时间】:2014-09-11 22:37:11
【问题描述】:
如何获取一个 rdd 数组的 spark,并将其随机分成两个 rdd,这样每个 rdd 将包含部分数据(比如说 97% 和 3%)。
我想洗牌然后shuffledList.take((0.97*rddList.count).toInt)
但是我怎样才能随机播放 rdd?
或者有没有更好的方法来拆分列表?
【问题讨论】:
-
所有项目是否都是唯一的(即没有重复项?)只是想知道您是否可以使用
takeSample(),然后将样本从原始列表中过滤掉。 -
可以重复,但为什么重要,如果它们是唯一的,你能做什么?
-
好的,我认为 takeSample 方法不适用于重复项。
-
这也是有问题的,因为我还想保存第二部分(即 3%)
标签: scala apache-spark rdd