【发布时间】:2022-01-22 06:48:06
【问题描述】:
我有两种方法可以在 pyspark 中使用udf:
1.
spark = pyspark.sql.SparkSession.builder.getOrCreate()
print(spark.udf)
output:
<pyspark.sql.udf.UDFRegistration at 0x7f5532f823a0>
from pyspark.sql.functions import udf
print(udf)
output:
<function pyspark.sql.functions.udf(f=None, returnType=StringType)>
我不明白两者之间的预期区别是什么。我怀疑为什么有两个 API 可用。spark.udf 有一个名为 register 的方法可用。我认为注册udf 是必要的。那么,为什么在pyspark.sql.functions 中没有。为什么只需要第一种情况?
你能帮我澄清这些疑惑吗?
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql user-defined-functions