【问题标题】:How Apache AirFlow achieves scalability?Apache AirFlow 如何实现可扩展性?
【发布时间】:2017-04-16 02:46:47
【问题描述】:

我看到,Airflow 中的许多操作员将数据存储在本地,然后再将其上传到目标系统。这意味着工作节点正在做大量工作,以防数据量很大。

Airbnb(开源 Airflow 的公司)早在 2015 年就表示,他们在 Airflow 集群中只有 6 个节点,服务于 5000 个工作。

我错过了什么吗?

【问题讨论】:

    标签: apache-spark hive airflow


    【解决方案1】:

    Apache Airflow 的主要用途是任务调度和监控。它不是作为通用数据处理引擎而设计的。不如将其视为 Oozie 的替代品,而不是 Apache Spark 或 Apache Hive。

    虽然 Airflow 可以扩展它的工作人员(使用 Mesos、RabbitMQ / Celery),但繁重的工作仍由分析系统执行。例如,Airflow 可以管理您的 Spark 作业和 Druid 查询、处理变更等。

    【讨论】:

      猜你喜欢
      • 2013-11-06
      • 1970-01-01
      • 2011-02-24
      • 2017-08-27
      • 2014-06-13
      • 2020-02-11
      • 2014-07-26
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多