【发布时间】:2020-06-17 18:41:06
【问题描述】:
我有一个大的 pyspark 数据框(23M 行),格式如下:
names, sentiment
["Lily","Kerry","Mona"], 10
["Kerry", "Mona"], 2
["Mona"], 0
我想计算 names 列中每个唯一名称的平均情绪,结果是:
name, sentiment
"Lily", 10
"Kerry", 6
"Mona", 4
【问题讨论】:
-
您是否尝试过一种正面的方法来爆炸数组、按名称分组并取平均值?数据框是否太大?
-
我没有抱歉,实际上效果很好
标签: apache-spark pyspark apache-spark-sql user-defined-functions