【问题标题】:Nested SELECT query in Pyspark DataFramesPyspark DataFrames 中的嵌套 SELECT 查询
【发布时间】:2016-03-09 10:53:41
【问题描述】:

假设我在 Pyspark 中有两个 DataFrames,我想运行一个嵌套的类似 SQL 的 SELECT 查询,在

SELECT * FROM table1
WHERE b IN
    (SELECT b FROM table2
     WHERE c='1')

现在,我可以使用where 实现选择查询,如

df.where(df.a.isin(my_list))

假设我事先选择了 my_list 元组的值。我将如何一次性执行嵌套查询?

【问题讨论】:

    标签: python sql select apache-spark pyspark


    【解决方案1】:

    据了解,Spark 不支持 WHERE 子句 (SPARK-4226) 中的子查询。不收集你能得到的最接近的东西是joindistinct 大致相当于这个:

    SELECT DISTINCT table1.* 
    FROM table1 JOIN table2
    WHERE table1.b = table2.b AND table2.c = '1' 
    

    【讨论】:

      猜你喜欢
      • 2019-08-08
      • 2016-08-03
      • 1970-01-01
      • 2012-09-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-12-24
      相关资源
      最近更新 更多