【发布时间】:2016-06-20 12:51:44
【问题描述】:
我正在尝试为 spark 1.5 的标准偏差编写自己的 UDF,并希望看到 1.6 的实现。谢谢。如果这是不可能的,我将如何编写一个 udf 来计算给定其 columnName 的列的标准偏差:(在 scala 中):
def stddev(columnName: String): Column = {}
【问题讨论】:
-
def stddev(columnName: Column): Column = { sqrt(avg(columnName * columnName) - avg(columnName) * avg(columnName)) } 这就是我想出的。谁能确认这是否正确?
标签: scala apache-spark udf