【发布时间】:2018-03-25 04:19:07
【问题描述】:
我想在数据框上创建一个新列,这是将函数应用于 arraytype 列的结果。
类似这样的:
df = df.withColumn("max_$colname", max(col(colname)))
列的每一行在哪里保存一个值数组?
spark.sql.function 中的函数似乎只能在列基础上工作。
【问题讨论】:
-
你要应用什么样的功能?
-
任何标准汇总统计:最小值、最大值、计数、平均值、方差等
标签: scala apache-spark spark-dataframe