【问题标题】:pyspark groupBy with multiple aggregates (like pandas)具有多个聚合的 pyspark groupBy(如 pandas)
【发布时间】:2018-04-04 22:26:11
【问题描述】:

我对 pyspark 很陌生,我正在尝试将我的 pandas 代码转换为 pyspark。我遇到的一件事是聚合我的 groupby。

这里是熊猫代码:

df_trx_m = train1.groupby('CUSTOMER_NUMBER')['trx'].agg(['mean', 'var'])

我在 AnalyticsVidhya 上看到了这个示例,但我不确定如何将其应用到上面的代码中:

train.groupby('Age').agg({'Purchase': 'mean'}).show()
Output:
+-----+-----------------+
|  Age|    avg(Purchase)|
+-----+-----------------+
|51-55|9534.808030960236|
|46-50|9208.625697468327|
| 0-17|8933.464640444974|
|36-45|9331.350694917874|
|26-35|9252.690632869888|
|  55+|9336.280459449405|
|18-25|9169.663606261289|
+-----+-----------------+

任何帮助将不胜感激

编辑:

这是另一个尝试:

from pyspark.sql.functions import avg, variance
train1.groupby("CUSTOMER_NUMBER")\
    .agg(
        avg('repatha_trx').alias("repatha_trx_avg"), 
        variance('repatha_trx').alias("repatha_trx_Var")
    )\
    .show(100)

但这只是给了我一个空数据框。

【问题讨论】:

标签: python pandas pyspark pyspark-sql


【解决方案1】:

您可以导入pyspark functions进行聚合。

# load function
from pyspark.sql import functions as F

# aggregate data
df_trx_m = train.groupby('Age').agg(
    F.avg(F.col('repatha_trx')).alias('repatha_trx_avg'),
    F.variance(F.col('repatha_trx')).alias('repatha_trx_var')
)

请注意,pyspark.sql.functions.variance() 返回总体方差。无偏样本方差还有另一个函数pyspark.sql.functions.var_samp()

【讨论】:

    猜你喜欢
    • 2020-11-05
    • 2018-07-17
    • 2019-06-08
    • 2021-11-01
    • 2019-10-12
    • 1970-01-01
    • 2017-02-11
    • 2022-01-17
    • 2021-10-02
    相关资源
    最近更新 更多