【发布时间】:2016-04-29 09:02:47
【问题描述】:
spark mllib 包是否对数据进行洗牌。我一直在对数据使用 randomSplit,但是,查看拆分看起来它具有相同的顺序。
有没有办法在拆分数据之前对其进行洗牌?
【问题讨论】:
-
mllib package shuffle the data - 正如@eliasah 所说,它没有。它只是通过遍历每个分区来获取随机样本。 有没有办法在拆分数据之前对其进行洗牌? - 这取决于上下文。您始终可以按随机值重新分区或排序,但它 a) 昂贵,b) 如果您希望每次都获得不同的结果,则需要一些努力来避免缓存 c) 如果您需要一个可重现的样本,则更难获得。
-
在上述两个评论之间,我想我们有一个答案。 @zero323 你有什么建议?
-
@eliasah 如果您想回答,请不要介意我。如果您将其提取到有用的东西中,我将很乐意投票 :)
-
好的,谢谢好友@zero323!
标签: apache-spark apache-spark-mllib