【发布时间】:2022-01-16 04:11:16
【问题描述】:
最近,AWS 宣布了 Amazon EMR Serverless(预览版)https://aws.amazon.com/blogs/big-data/announcing-amazon-emr-serverless-preview-run-big-data-applications-without-managing-servers/ - 新的非常有前途的服务。
据我了解 - AWS Glue 是 Apache Spark 之上的一项托管服务(用于转换层)。 AWS EMR 也主要用于 Apache Spark。因此,EMR Serverless(用于 Apache Spark)看起来与 AWS Glue 非常相似。
现在我有一个问题 - 与 AWS Glue 的核心区别是什么以及何时选择 EMR Serverless 而不是 Glue?
潜在的 EMR 无服务器,甚至可能成为 AWS Glue 生态系统的一部分,用于转换层?也许 AWS 会用 EMR Serverless 代替 AWS Glue 中的转换层,然后它可能会有意义。 AWS Glue 将扮演 ETL Overlay、Metastore 的角色,以 EMR Serverless 作为处理层。
【问题讨论】:
-
你不是说 Athena 和 EMR 不一样吗?
-
不,我的意思是 AWS Glue 与 EMR Serverless。 AWS Glue 是 Apache Spark 之上的一项托管服务(用于转换层)。 AWS EMR 也主要用于 Apache Spark。因此,EMR Serverless(用于 Apache Spark)看起来与 AWS Glue 非常相似。这就是我的问题。
-
现在我明白了让您感到困惑的是什么。这两种服务都可能建立在相似的技术/组件 (pyspark) 之上,但它们具有不同的级别和用例。我不认为这些服务会被合并或替换。打个比方,您可以比较 ECS 和 RDS 等服务。您可以通过一些努力和维护在 ECS 上运行数据库,但这不是目的和用例。
-
@gusto2 感谢您的回答,但请仔细阅读我的问题。跳过 Metastore 和其他 Glue 功能,只关注处理层。
标签: amazon-web-services amazon-emr aws-glue emr-serverless