【发布时间】:2020-01-23 10:50:40
【问题描述】:
我有一个清单,比如说
ids = ['K50', 'K51', 'K51', 'P41', 'P41', 'P42']
我需要达到的目标 -
- 从列表中获取每个 id
- 从每个站点的配置单元表(例如 tableA )中获取数据。
- 转置该数据的一些值。
- 为每个 ID 写入 parquet 文件。
注意 - 我需要为列表中的每个 id 并行运行此作业。
我查看了几篇帖子,但没有找到任何具体的解决方案。如何在 pyspark 中解决这个问题?
Spark 版本 - 2.4.3
【问题讨论】:
标签: apache-spark pyspark azure-databricks