如何在 PySpark 中编写条件正则表达式替换？答案

【问题标题】：How can I write conditional regex replace in PySpark?如何在 PySpark 中编写条件正则表达式替换？
【发布时间】：2021-03-23 18:11:24
【问题描述】：

我试图让 if else 语句以 when() 和 otherwise() 函数的形式工作。我尝试了很多方法，但我的问题是when() 语句需要一个列。有没有办法让以下代码以when() 和otherwise() 格式工作？

get_data = spark.sql("SELECT STRING({}) AS {} FROM {} WHERE Mobile='{}'".format(dynamic_tag_mapping_column_name, match[0], dynamic_tag_mapping_table_name, mobile_numbers[mob])).collect()[0][0]
if get_data!='0':
     textList.append(campaign_segment_text.withColumn('CampaignSMSText', func.expr("regexp_replace(CampaignSMSText, '{}', {})".format(match[0], get_data)))
else:
     textList.append(campaign_segment_text.withColumn('CampaignSMSText', func.expr("regexp_replace(CampaignSMSText, '{}', {})".format(match[0], dynamic_default_value)))

我想要实现的是，如果我从数据库中获取get_data>0 值，它将采用get_data 值，但如果get_data=0，它将分配一个已设置的默认值。我尝试将 String 值设置为从 DB 获取的 Int 值，但无法比较，因为 get_data 不是列。有没有办法让这个工作？

【问题讨论】：

标签： apache-spark pyspark apache-spark-sql regexp-replace

【解决方案1】：

尝试将case when 放入F.expr？

get_data = spark.sql("SELECT {} AS {} FROM {} WHERE Mobile='{}'".format(dynamic_tag_mapping_column_name, match[0], dynamic_tag_mapping_table_name, mobile_numbers[mob])).collect()[0][0]

textList.append(
    campaign_segment_text.withColumn(
        'CampaignSMSText',
        func.expr(
            "regexp_replace(CampaignSMSText, '{}', case when {} != 0 then {} else {} end)".format(
                match[0], get_data, get_data, dynamic_default_value
            )
        )
    )
)

【讨论】：

@VarunNagrare 我在您的代码（以及我的代码）中发现了一个缺少的右括号，您能再试一次吗？
好的，我去看看
是的，它成功了！谢啦。你的回答第二次帮助了我。 :D
我知道 UDF 很慢。我只是想练习，因为我不知道 UDF 是如何工作的。
是的，您可以使用 udf。 udf 将字符串、模式和要替换的模式作为输入参数，并返回替换后的字符串