pyspark - 为列表中的多个 id 并行运行 spark sql 查询答案

【问题标题】：pyspark - Run a spark sql query in parallel for multiple ids in a listpyspark - 为列表中的多个 id 并行运行 spark sql 查询
【发布时间】：2020-01-23 10:50:40
【问题描述】：

我有一个清单，比如说

ids = ['K50', 'K51', 'K51', 'P41', 'P41', 'P42']

我需要达到的目标 -

从列表中获取每个 id
从每个站点的配置单元表（例如 tableA ）中获取数据。
转置该数据的一些值。
为每个 ID 写入 parquet 文件。

注意 - 我需要为列表中的每个 id 并行运行此作业。

我查看了几篇帖子，但没有找到任何具体的解决方案。如何在 pyspark 中解决这个问题？

Spark 版本 - 2.4.3

【问题讨论】：

pyspark dataframe filter or include based on list的可能重复

标签： apache-spark pyspark azure-databricks

【解决方案1】：

您需要根据密钥重新分区数据。我已经使用distribute-key和cluster-by实现了这个。检查以下网址。你会发现很多关于这个主题的博客。

https://deepsense.ai/optimize-spark-with-distribute-by-and-cluster-by/

【讨论】：

我需要为该列表并行运行多个 sql 查询。我假设，分发或重新分区在这里没有帮助。