【发布时间】:2019-03-08 19:37:47
【问题描述】:
我正在解决一个问题,我们打算使用 EMR (SparkSQL) 对数据执行多次转换。
在浏览了 AWS Data Pipelines 和 AWS Step Functions 的文档后,我对它们各自试图解决的用例感到有些困惑。我环顾四周,但没有找到两者之间的权威比较。有多种资源展示了我如何使用它们来安排和触发 EMR 集群上的 Spark 作业。
我应该使用哪一个来安排和编排我的 EMR 处理作业?
更一般地说,在什么情况下,就 ETL/数据处理而言,哪种情况比另一种更好?
【问题讨论】:
标签: amazon-web-services aws-step-functions aws-data-pipeline