【发布时间】:2018-03-07 09:29:21
【问题描述】:
我使用以下代码每年汇总学生。目的是了解每年的学生总数。
from pyspark.sql.functions import col
import pyspark.sql.functions as fn
gr = Df2.groupby(['Year'])
df_grouped =
gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year'))
我发现这么多ID重复的问题,结果是错误的和巨大的。
我想按年汇总学生,按年统计学生总数,避免ID重复。
【问题讨论】:
-
我从 Hive 表中调用了数据
标签: python pyspark apache-spark-sql