【发布时间】:2020-11-07 18:03:34
【问题描述】:
我正在使用一组表开发 Spark SQL 分析解决方案。假设我需要 5 个表来构建我的解决方案,最后我正在创建一个输出表。 这是我的流程
dataframe1 = table1 join table2
dataframe2 = dataframe1 join table3
dataframe3 = datamframe2 + filter + agg
dataframe4 = dataframe3 join table4 join table 5
// finally
dataframe4.saveAsTable
当我保存最终数据帧时,即评估所有上述数据帧。 我的方法好吗?要么 我需要缓存/持久化中间数据帧吗?
【问题讨论】:
-
可能是一个展示你的手并接受真实答案的想法?
标签: apache-spark apache-spark-sql