【问题标题】:How to schedule Spark jobs如何安排 Spark 作业
【发布时间】:2020-03-23 01:01:42
【问题描述】:

我正在使用 Azure 服务来运行我的 pyspark 作业。以下是我的步骤:

  1. 我为我的 pyspark 作业创建了 Docker 映像。
  2. 我正在调用 AKS 进行资源分配

我需要的是我想安排我的工作(应该在特定的日期和月份运行)。由于我是 Azure 服务的新手,所以安排时间的更好选择是什么。

更新

  1. 我创建了在 AKS 的 pod 上运行的 spark 作业。
  2. 现在我想按特定频率安排这些 pod(对时间选择没有限制)。

【问题讨论】:

  • 能否请您edit 提出您的问题并添加有关您迄今为止尝试过的步骤的更多详细信息?

标签: azure pyspark scheduling


【解决方案1】:

我不确定,因为您的问题不是很清楚,但您可能希望在 K8S 中运行 Cron 作业:https://kubernetes.io/docs/concepts/workloads/controllers/cron-jobs/

【讨论】:

  • 嘿,我的意思是我的 spark 作业在 AKS 上作为 pod 运行,我想在特定日期和特定时间安排这些 pod。我不应该对日程安排有任何限制
【解决方案2】:

要安排您的 Spark 作业,例如 Cron 作业或其他东西,Apache Airflow 之类的东西可以解决问题。试着研究一下。它是用 Python 编写的最好的调度框架之一。它是基于代码的,这意味着您必须在 python 中编写整个流程,您将看到一个代表您计划任务的简洁 DAG!

https://airflow.apache.org/docs/stable/scheduler.html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-04-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-08-18
    相关资源
    最近更新 更多