火花数据框分组值最大值函数空值答案

【问题标题】：spark dataframe grouped value max function null values火花数据框分组值最大值函数空值
【发布时间】：2018-07-13 07:31:54
【问题描述】：

我有一个数据框，其中包含“prod_key”、“prod_name”、“Sales”、“Volume”。我想获得 df 的所有描述性统计信息。

groupby_cols = ['prod_key','prod_name']
funs = [F.mean, F.min, F.max,F.count]

aggregate_cols = [ 'Sales','Volume' ]

exprs = [f(F.col(c)) for f in funs for c in aggregate_cols]
df_description = df.groupBy(*groupby_cols).agg(*exprs)

我在 max 函数结果中得到了空值。Min 函数工作正常。这有什么问题吗？谢谢。

【问题讨论】：

How to make good reproducible Apache Spark Dataframe examples

标签： apache-spark dataframe aggregation

【解决方案1】：

  df = df.withColumn("Sales",df["Sales"].cast("float"))\
   .withColumn("Volume",df["Volume"].cast("float"))

df.Sales, df.Volume 作为 String 读入可能是因为有空值。在我将数据类型从字符串更改为浮点数后，它工作正常。

【讨论】：