【问题标题】:Spark Equivalent of IF Then ELSEIF Then ELSE 的 Spark 等效项
【发布时间】:2023-03-24 22:57:01
【问题描述】:

我早些时候在这里看到过这个问题,我从中吸取了教训。但是,我不确定为什么当我觉得它应该工作时会出现错误。

我想通过一些规则在现有 Spark DataFrame 中创建一个新列。这是我写的。 iris_spark 是具有分类变量 iris_spark 的数据框,该变量具有三个不同的类别。

from pyspark.sql import functions as F

iris_spark_df = iris_spark.withColumn(
    "Class", 
   F.when(iris_spark.iris_class == 'Iris-setosa', 0, F.when(iris_spark.iris_class == 'Iris-versicolor',1)).otherwise(2))

引发以下错误。

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))

TypeError: when() takes exactly 2 arguments (3 given)


---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))

TypeError: when() takes exactly 2 arguments (3 given)

知道为什么吗?

【问题讨论】:

    标签: python apache-spark pyspark apache-spark-sql


    【解决方案1】:

    正确的结构是:

    (when(col("iris_class") == 'Iris-setosa', 0)
    .when(col("iris_class") == 'Iris-versicolor', 1)
    .otherwise(2))
    

    相当于

    CASE 
        WHEN (iris_class = 'Iris-setosa') THEN 0
        WHEN (iris_class = 'Iris-versicolor') THEN 1 
        ELSE 2
    END
    

    或:

    (when(col("iris_class") == 'Iris-setosa', 0)
        .otherwise(when(col("iris_class") == 'Iris-versicolor', 1)
            .otherwise(2)))
    

    相当于:

    CASE WHEN (iris_class = 'Iris-setosa') THEN 0 
         ELSE CASE WHEN (iris_class = 'Iris-versicolor') THEN 1 
                   ELSE 2 
              END 
    END
    

    通用语法:

    when(condition, value).when(...)
    

    when(condition, value).otherwise(...)
    

    您可能与 Hive IF 条件混淆了:

    IF(condition, if-true, if-false)
    

    只能在支持 Hive 的原始 SQL 中使用。

    【讨论】:

    • 添加更多上下文:为此您需要from pyspark.sql.functions import when
    • 当您链接多个when 而中间没有otherwise 时,请注意,当多个when 为真时,只会评估第一个真when
    【解决方案2】:

    有不同的方法可以实现 if-then-else。

    1. 在 DataFrame API 中使用 when 函数。 您可以在 when 中指定条件列表,也可以在其他情况下指定您需要的值。您也可以以嵌套形式使用此表达式。

    2. expr 函数。 使用“expr”函数,您可以在 expr 中传递 SQL 表达式。 PFB 示例。在这里,我们正在根据月份列创建新列“季度”。

    cond = """case when month > 9 then 'Q4'
                else case when month > 6 then 'Q3'
                    else case when month > 3 then 'Q2'
                        else case when month > 0 then 'Q1'
                            end
                        end
                    end
                end as quarter"""
    
    newdf = df.withColumn("quarter", expr(cond))
    
    1. selectExpr 函数。 我们还可以使用可以接受 SQL 表达式的 select 函数的变体。 PFB 示例。
        cond = """case when month > 9 then 'Q4'
                    else case when month > 6 then 'Q3'
                        else case when month > 3 then 'Q2'
                            else case when month > 0 then 'Q1'
                                end
                            end
                        end
                    end as quarter"""
    
        newdf = df.selectExpr("*", cond)
    
    

    【讨论】:

      【解决方案3】:

      Spark 中的条件语句

      • 在 DataFrame 上使用“when else
      • 在 DataFrame 上使用“case when
      • 使用 &&|| 运算符

      import org.apache.spark.sql.functions.{when, _}
      import spark.sqlContext.implicits._
      
      val spark: SparkSession = SparkSession.builder().master("local[1]").appName("SparkByExamples.com").getOrCreate()
      
      val data = List(("James ","","Smith","36636","M",60000),
              ("Michael ","Rose","","40288","M",70000),
              ("Robert ","","Williams","42114","",400000),
              ("Maria ","Anne","Jones","39192","F",500000),
              ("Jen","Mary","Brown","","F",0))
      
      val cols = Seq("first_name","middle_name","last_name","dob","gender","salary")
      val df = spark.createDataFrame(data).toDF(cols:_*)
      

      1.在 DataFrame 上使用“when else”

      用新值替换性别的值

      val df1 = df.withColumn("new_gender", when(col("gender") === "M","Male")
            .when(col("gender") === "F","Female")
            .otherwise("Unknown"))
      
      val df2 = df.select(col("*"), when(col("gender") === "M","Male")
            .when(col("gender") === "F","Female")
            .otherwise("Unknown").alias("new_gender"))
      

      2。在 DataFrame 上使用“case when”

      val df3 = df.withColumn("new_gender",
        expr("case when gender = 'M' then 'Male' " +
                         "when gender = 'F' then 'Female' " +
                         "else 'Unknown' end"))
      

      或者,

      val df4 = df.select(col("*"),
            expr("case when gender = 'M' then 'Male' " +
                             "when gender = 'F' then 'Female' " +
                             "else 'Unknown' end").alias("new_gender"))
      

      3。使用 && 和 ||运营商

      val dataDF = Seq(
            (66, "a", "4"), (67, "a", "0"), (70, "b", "4"), (71, "d", "4"
            )).toDF("id", "code", "amt")
      dataDF.withColumn("new_column",
             when(col("code") === "a" || col("code") === "d", "A")
            .when(col("code") === "b" && col("amt") === "4", "B")
            .otherwise("A1"))
            .show()
      

      输出:

      +---+----+---+----------+
      | id|code|amt|new_column|
      +---+----+---+----------+
      | 66|   a|  4|         A|
      | 67|   a|  0|         A|
      | 70|   b|  4|         B|
      | 71|   d|  4|         A|
      +---+----+---+----------+
      

      【讨论】:

      • 答案非常详细,购买 OP 的标签和问题显然是针对 Python 的,而且这个答案完全在 Scala 中完成。通过注意 Python 语法可以进一步改进答案,该语法通常但并不总是与 Scala 等价物非常相似。
      • 在 pyspark && 和 ||运算符不存在,它会抛出 SyntaxError。为了更好地理解,请参阅此链接stackoverflow.com/questions/37707305/…
      【解决方案4】:

      你可以使用这个: if(exp1, exp2, exp3)spark.sql() 其中 exp1 是条件,如果为 true,则给我 exp2,否则给我 exp3。

      现在嵌套 if-else 的有趣之处在于。你需要传递里面的每个 exp

      brackets {"()"}
      else it will raise error.
      

      示例:

      if((1>2), (if (2>3), True, False), (False))
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2021-06-04
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多