【问题标题】:Filtering out data in Spark dataframe in Scala在Scala中过滤掉Spark数据框中的数据
【发布时间】:2017-06-03 14:09:29
【问题描述】:

我有一个数据框 df,其中包含以下数据:

**customers**   **product**   **Val_id**
     1               A            1
     2               B            X
     3               C               
     4               D            Z

我已成功筛选出 val_id 列为空白的数据

df.where(col("val_id").isin(""))

但我无法找到一种方法来过滤列 val_id 不为空的数据,我尝试了类似下面的方法,但对我不起作用:

df.where(col("val_id").isnotin(""))

谁能帮我用 Spark Scala 实现它。

【问题讨论】:

    标签: scala apache-spark spark-dataframe


    【解决方案1】:

    您可以使用过滤器来获得所需的输出:

    df.filter("rule_id != ''")
    

    【讨论】:

      【解决方案2】:

      假设Val_id是String类型,你可以使用这个不等式运算符!==

      df.where(col("Val_id") !== "").show
      

      相反,您也可以使用=== 来匹配空白。

      【讨论】:

        【解决方案3】:

        如果列类型是String:

        df.where(trim(col("val_id")) != "")
        

        【讨论】:

          猜你喜欢
          • 2018-11-01
          • 1970-01-01
          • 1970-01-01
          • 2017-02-27
          • 2014-10-03
          • 2022-11-22
          • 1970-01-01
          • 1970-01-01
          • 2023-01-09
          相关资源
          最近更新 更多