【发布时间】:2022-01-22 18:50:30
【问题描述】:
目前,我在一个单元格中使用 spark 数据框(自动加载器)时遇到了一些问题,可能需要一些时间来写入数据。然后,在下面的单元格中,代码引用了第一个表所做的工作。但是,如果由于 spark 的分布式特性而运行整个笔记本(特别是作为作业),则第二个单元在第一个单元完全完成之前运行。如何让第二个单元等待 writeStream 的完成而不将它们放在单独的笔记本中。
例子:
单元格1
autoload = pysparkDF.writeStream.format('delta')....table('TABLE1')
单元格2
df = spark.sql('select count(*) from TABLE1')
【问题讨论】:
标签: apache-spark pyspark databricks spark-structured-streaming