【问题标题】:spring cloud dataflow and airflow春天云数据流和气流
【发布时间】:2020-04-19 23:03:56
【问题描述】:
我们将气流作为工作流管理工具来安排/监控任务,还有一些应用程序使用 Spring 云数据流通过生产者和消费者对话消息总线 Kafka 和用于 UI (ETL) 的 Grafana 仪表板实现跨流程的松散耦合。 Kubernetes 和 AWS (EKS) 是部署的选项。
我们开始创建具有源(S3 或服务器或数据库上的文件)、处理器(自定义应用程序、AL/ML 管道)和目标(Kafka、s3、数据库、ES)的数据管道。我计划使用气流通过基于 SCDF 的应用程序或未来编写的 Python 应用程序来管理管道和管道内任务的整体管理,因为 AL/ML 片断扩展。这是正确的方法还是我可以放弃一个而不是另一个?
【问题讨论】:
标签:
airflow
spring-cloud-dataflow
【解决方案1】:
根据您的要求,SCDF 将适合并提供管理您的流数据管道的选项。
虽然您仍然可以研究以找到任何其他可能的方法,但我可以提供更多关于 SCDF 提供什么来满足您的某些要求的提示。
- SCDF 提供开箱即用的应用程序,您可以扩展/自定义。这些应用程序包括 S3 源和接收器,您可以开箱即用。如需完整的开箱即用应用列表,您可以参考页面here
- 显然,SCDF 有 Kubernetes 部署程序,您可以在任何基于 Kubernetes 的平台上工作。您可以在部署应用程序时将 K8s 特定属性配置为一组 Kubernetes 部署程序属性。
- 您可以将基于 python 的应用程序作为处理器/转换器嵌入到流数据管道中。您可以从 SCDF 网站查看此receipe 以了解更多信息。
- 您还可以将
tensorflow 应用程序作为processor 应用程序嵌入到管道中。