转置 DataFrame 的 Spark 性能答案

【问题标题】：Spark performance transposing a DataFrame转置 DataFrame 的 Spark 性能
【发布时间】：2020-03-18 20:19:15
【问题描述】：

目标：转置从大型、高延迟数据存储中的 30,000 个表中收集的一组行：

我解决问题的方法如下，并且成功了一半。

def getColumn(df: DataFrame, columnName: String): Seq[Option[String]] = {
      df.select(columnName).collect().map(_ (0)).toSeq
   }

Spark 运行时，我观察作业性能，collect 步骤自然是一个巨大的瓶颈；有时几十分钟。由于作业运行了几个小时，它总是将提取速度降低 10 到 50 倍。上面的整个序列是在不同的线程中完成的。线程池大小是主机上处理器数量的两倍。

我的问题是：我正在寻找关于如何改进这项工作的设计的建议，或者关于如何提高列提取效率的想法。

我想知道我的问题是否最适合 Spark。将每个数据帧的内容放在单个主机上以提取列不是更好吗？仅将行并行化以收集列似乎并没有增加价值。

【问题讨论】：

【解决方案1】：

一些想法：

【讨论】：