【发布时间】:2021-10-25 16:32:54
【问题描述】:
我有一个如下的 UDF,它是一个普通的标量 Pyspark UDF:
@udf()
def redact(colVal: column, offset: int = 0):
if not colVal or not offset:
return 'X'*8
else:
charList=list(colVal)
charList[:-offset]='X'*(len(colVal)-offset)
return "".join(charList)
当我阅读时尝试将其转换为 pandas_udf 时,使用矢量化 UDF 代替标量 UDF 有显着的性能改进,但我遇到了很多与 pandas 相关的问题,但我在这方面经验不足。
请帮助我将此 UDF 转换为矢量化 Pandas UDF
【问题讨论】:
标签: pandas pyspark user-defined-functions