【发布时间】:2021-08-08 19:26:40
【问题描述】:
我在数据块中创建了一个计划作业,以定期执行笔记本。
在 notebook 中,有许多由单元格分隔的命令。 Spark 流式查询是单元格中的命令之一。
计划作业失败,因为流式查询需要一些时间才能完成执行。但问题是在完成流式查询之前,下一个命令正在尝试执行。所以工作失败了。
我怎样才能为这两个命令建立依赖关系?我希望下一个命令仅在流式查询完成后运行。
我正在通过 Pyspark 使用 Dataframe API。谢谢
【问题讨论】:
标签: apache-spark pyspark databricks jobs spark-structured-streaming