【发布时间】:2016-12-26 14:48:41
【问题描述】:
当我在 Spark 中使用 DataFrame 时,有时我必须只编辑该 DataFrame 中特定列的值。例如。如果我的数据框中有一个count 字段,并且如果我想将1 添加到count 的每个值中,那么我可以编写一个自定义udf 来使用withColumn 功能完成工作DataFrames,或者我可以在 DataFrame 上执行map,然后从生成的 RDD 中提取另一个 DataFrame。
我想知道 udf 在后台是如何工作的。在这种情况下,给我一个使用 map/udf 的比较。性能有何不同?
谢谢!
【问题讨论】:
标签: scala apache-spark udf