【发布时间】:2020-07-12 05:00:44
【问题描述】:
我有一个基于元数据驱动的 spark 的转换引擎。我对存储在内存中的 Scala Map[String, DataFrame] 中的多个数据帧执行一组转换。我遇到一种情况,我使用 84 种转换生成数据框,包括(withColumn、Join、union 等)。在这些之后,输出数据框被用作另一组转换的输入。
如果我在前 84 次转换之后写入中间转换结果,然后将数据帧从输出路径加载到 Map 中。下一组转换工作正常。如果我不这样做,评估需要 30 分钟。
我的方法:我尝试使用以下方法持久化 Dataframe:
dfMap(target).cache()
但这种方法没有帮助。
【问题讨论】:
标签: scala apache-spark