【发布时间】:2020-06-24 02:39:02
【问题描述】:
我们使用 Spark 的 SQL API 对集群上的Hive 表执行查询。如何在 SQL-API 中对查询中的列执行REPARTITION ?请注意,我们不使用 Dataframe API,而是使用 SQL API(例如 SELECT * from table WHERE col = 1)。
我了解 PySpark-SQL 在 Dataframe API 中提供了相同的功能。
但是,我想知道通过 SQL-API(通过 SELECT 语句)在 SQL 查询中指定 REPARTITION(在特定列上)的语法。
考虑以下查询:
select a.x, b.y
from a
JOIN b
on a.id = b.id
感谢任何帮助。
我们使用 Spark 2.4
谢谢
【问题讨论】:
标签: apache-spark apache-spark-sql