【问题标题】:Databricks Streaming scheduled job failsDatabricks Streaming 计划作业失败
【发布时间】:2021-08-08 19:26:40
【问题描述】:

我在数据块中创建了一个计划作业,以定期执行笔记本。

在 notebook 中,有许多由单元格分隔的命令。 Spark 流式查询是单元格中的命令之一。

计划作业失败,因为流式查询需要一些时间才能完成执行。但问题是在完成流式查询之前,下一个命令正在尝试执行。所以工作失败了。

我怎样才能为这两个命令建立依赖关系?我希望下一个命令仅在流式查询完成后运行。

我正在通过 Pyspark 使用 Dataframe API。谢谢

【问题讨论】:

    标签: apache-spark pyspark databricks jobs spark-structured-streaming


    【解决方案1】:

    您需要等待查询完成。它通常使用 .awaitTermination 函数 (doc) 完成,如下所示:

    query = df.writeStream.....
    query.awaitTermination()
    

    【讨论】:

    • 感谢 Alex 对此的快速回复。
    猜你喜欢
    • 2015-05-23
    • 2010-12-10
    • 1970-01-01
    • 1970-01-01
    • 2017-06-07
    • 1970-01-01
    • 2017-03-16
    • 1970-01-01
    • 2021-11-19
    相关资源
    最近更新 更多