【发布时间】:2019-04-05 08:02:10
【问题描述】:
我正在寻找一种方法来检查数据是否使用 Spark 向左或向右倾斜。以下示例给出了相同的偏度统计信息。
>>> from pyspark.sql import functions as f
>>> val1 = [('2018-01-01',20),('2018-02-01',100),('2018-03-01',50),('2018-04-01',0),('2018-05-01',0),('2018-06-01',0),('2018-07-01',0),('2018-08-01',0),('2018-09-01',0)]
>>> val2 = [('2018-01-01',0),('2018-02-01',0),('2018-03-01',0),('2018-04-01',0),('2018-05-01',0),('2018-06-01',0),('2018-07-01',20),('2018-08-01',100),('2018-09-01',50)]
>>> columns = ['date','value']
>>> val1_df = spark.createDataFrame(val1, columns)
>>> val1_df.agg(f.skewness("value")).show()
+-----------------+
| skewness(value)|
+-----------------+
|1.646145420937772|
+-----------------+
>>> val2_df = spark.createDataFrame(val2, columns)
>>> val2_df.agg(f.skewness("value")).show()
+------------------+
| skewness(value)|
+------------------+
|1.6461454209377715|
+------------------+
有什么方法可以根据spark中的“日期”列获得正偏度或负偏度?
【问题讨论】:
标签: python apache-spark pyspark data-science