【发布时间】:2016-06-22 14:21:24
【问题描述】:
我想用类似 SQL 的IN 子句过滤 Pyspark DataFrame,如
sc = SparkContext()
sqlc = SQLContext(sc)
df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')
其中a 是元组(1, 2, 3)。我收到此错误:
java.lang.RuntimeException: [1.67] failure: ``('' 预期但发现标识符 a
这基本上是说它期待像 '(1, 2, 3)' 而不是 a. 问题是我无法在 a 中手动写入值,因为它是从另一个作业中提取的。
在这种情况下我将如何过滤?
【问题讨论】:
标签: python sql apache-spark dataframe pyspark