【问题标题】:pyspark - Run a spark sql query in parallel for multiple ids in a listpyspark - 为列表中的多个 id 并行运行 spark sql 查询
【发布时间】:2020-01-23 10:50:40
【问题描述】:

我有一个清单,比如说

ids = ['K50', 'K51', 'K51', 'P41', 'P41', 'P42']  

我需要达到的目标 -

  1. 从列表中获取每个 id
  2. 从每个站点的配置单元表(例如 tableA )中获取数据。
  3. 转置该数据的一些值。
  4. 为每个 ID 写入 parquet 文件。

注意 - 我需要为列表中的每个 id 并行运行此作业。

我查看了几篇帖子,但没有找到任何具体的解决方案。如何在 pyspark 中解决这个问题?

Spark 版本 - 2.4.3

【问题讨论】:

标签: apache-spark pyspark azure-databricks


【解决方案1】:

您需要根据密钥重新分区数据。我已经使用distribute-key和cluster-by实现了这个。检查以下网址。你会发现很多关于这个主题的博客。

https://deepsense.ai/optimize-spark-with-distribute-by-and-cluster-by/ 

【讨论】:

  • 我需要为该列表并行运行多个 sql 查询。我假设,分发或重新分区在这里没有帮助。
猜你喜欢
  • 1970-01-01
  • 2013-08-10
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-11-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多