【发布时间】:2021-10-26 20:16:33
【问题描述】:
我不完全明白何时需要在 UDF 的定义中使用 lambda 函数。
我之前的理解是,我需要 lambda 才能让 DataFrame 识别它必须遍历每一行,但我看到很多 UDF 应用程序没有 lambda 表达式。
例如:
我有一个不使用 lambda 的傻函数:
@udf("string")
def unknown_city(s, city):
if s == 'KS' and 'MI':
return 'Unknown'
else:
return city
display(df2.
withColumn("new_city", unknown_city(col('geo.state'), col('geo.city')))
)
我怎样才能使它与 lambda 一起工作?有必要吗?
【问题讨论】:
-
"我不完全明白何时需要在 UDF 的定义中使用 lambda 函数" lambda 函数从不需要,它是糖
标签: python apache-spark pyspark lambda