【发布时间】:2021-10-18 07:48:13
【问题描述】:
我想了解 spark Dag 的创建方式。假设我有一个 Spark 驱动程序,它执行 3 个 spark 动作(比如在 s3 上写入数据)。
val df1= spark.read.text("S3://onepath/")
val df2= df1.select(col1,col2)
val df3= spark.read.text("s3://anotherpath/")
df1.write("")
df2.write("")
df3.write("")
我想了解 spark 是否总是以相同的顺序编写 df1、df2 和 df3,或者它可以自己即兴创作并开始并行编写 df1 和 df3,因为它们不相互依赖,然后最后将 df2 编写为它依赖于 df1。
【问题讨论】:
标签: scala apache-spark