【发布时间】:2020-03-10 04:40:59
【问题描述】:
我有一个包含 500 万行的 PySpark DataFrame,并且想要获取随机选择的子集的描述。
当我生成相同分数的两个不同样本时,我得到相同的结果。
sample_1 = df.sample(fraction=0.03, seed=None)
sample_1.describe().show(100)
+-------+--------------------+
|summary| row_name|
+-------+--------------------+
| count| 160933|
| mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
| min| 10111444|
| max| 99955723|
+-------+--------------------+
sample_2 = df.sample(fraction=0.03, seed=None)
sample_2.describe().show(100)
+-------+--------------------+
|summary| row_name|
+-------+--------------------+
| count| 160933|
| mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
| min| 10111444|
| max| 99955723|
+-------+--------------------+
sample_1 == sample_2 False
两个不同的dataframe的描述怎么会一样呢?
SparkContext().version = '2.4.4'
【问题讨论】:
-
每次调用都更换种子怎么样?
-
我试过了,结果还是一样。
-
刚刚测试的结果相同,每次采样都会得到不同的结果
标签: python pyspark pyspark-sql pyspark-dataframes