【发布时间】:2018-12-17 05:12:26
【问题描述】:
阅读 spark 文档:http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.sample
有这个布尔参数withReplacement,不用多解释。
sample(withReplacement, fraction, seed=None)
它是什么以及我们如何使用它?
【问题讨论】:
-
有替换意味着一行数据可以多次被选中进入样本,不替换意味着一行只能被选中一次进入样本
标签: apache-spark