【问题标题】:AWS Glue vs EMR ServerlessAWS Glue 与 EMR 无服务器
【发布时间】:2022-01-16 04:11:16
【问题描述】:

最近,AWS 宣布了 Amazon EMR Serverless(预览版)https://aws.amazon.com/blogs/big-data/announcing-amazon-emr-serverless-preview-run-big-data-applications-without-managing-servers/ - 新的非常有前途的服务。

据我了解 - AWS Glue 是 Apache Spark 之上的一项托管服务(用于转换层)。 AWS EMR 也主要用于 Apache Spark。因此,EMR Serverless(用于 Apache Spark)看起来与 AWS Glue 非常相似。

现在我有一个问题 - 与 AWS Glue 的核心区别是什么以及何时选择 EMR Serverless 而不是 Glue?

潜在的 EMR 无服务器,甚至可能成为 AWS Glue 生态系统的一部分,用于转换层?也许 AWS 会用 EMR Serverless 代替 AWS Glue 中的转换层,然后它可能会有意义。 AWS Glue 将扮演 ETL Overlay、Metastore 的角色,以 EMR Serverless 作为处理层。

【问题讨论】:

  • 你不是说 Athena 和 EMR 不一样吗?
  • 不,我的意思是 AWS Glue 与 EMR Serverless。 AWS Glue 是 Apache Spark 之上的一项托管服务(用于转换层)。 AWS EMR 也主要用于 Apache Spark。因此,EMR Serverless(用于 Apache Spark)看起来与 AWS Glue 非常相似。这就是我的问题。
  • 现在我明白了让您感到困惑的是什么。这两种服务都可能建立在相似的技术/组件 (pyspark) 之上,但它们具有不同的级别和用例。我不认为这些服务会被合并或替换。打个比方,您可以比较 ECS 和 RDS 等服务。您可以通过一些努力和维护在 ECS 上运行数据库,但这不是目的和用例。
  • @gusto2 感谢您的回答,但请仔细阅读我的问题。跳过 Metastore 和其他 Glue 功能,只关注处理层。

标签: amazon-web-services amazon-emr aws-glue emr-serverless


【解决方案1】:

AWS Glue 是一种数据集成服务和 ETL。与 EMR Analytics 完全不同的服务。

AWS Glue 可用作 EMR 的元数据存储(表架构)并运行集成作业以准备数据(例如,用于 EMR)。有数据集成作业和工作流。至少这是为了限制工作,但更易于管理。

EMR 更多(而且非常不同)。理论上,EMR 也可以在 Spark 集群上批量运行 python 数据集成作业,但您可以在 Spark 集群内运行任何作业。 EMR 更像是一种分析工具和处理工具。它不限于 python 批处理作业的 Spark 处理,您可以使用不同的框架。尽管 EMR 无服务器文档仅提及 Spark 和 Hive 查询,但您可以更好地控制处理作业。

如果有任何东西与 EMR 服务相比,那就是 Athena,它类似于带有 Spark 和 Presto 并在其自己的网络上的 EMR 无服务器。

【讨论】:

  • 我不同意这个答案。 AWS Glue 是一种数据集成服务 - 正确,但其主要优势之一是无服务器 Spark 服务或 Python Shell 作业。 AWS Glue 的整个 ETL 组件,除了其统一的数据目录外,也是其主要卖点之一。对于 EMR Serverless,它的 ETL 部分完全符合相同的要求。与 Glue Spark 作业相比,EMR 无服务器有什么好处?
  • @maddy2u EMR Serverless 提供了更多的运行时选项(Hive 查询、Java 作业、Presto 等)、大小调整选项、.. ETL 的胶水作业应该受到限制(尽管理论上您可以编写里面的任何东西)。我不会使用 Glue 作业来为 map-reduce 结果集创建响应。是的,技术核心可能相同/相似,但用例不同。如果您不同意/不喜欢这个答案,请随时写出更好的答案。
猜你喜欢
  • 1970-01-01
  • 2018-07-17
  • 2022-12-06
  • 2022-06-16
  • 1970-01-01
  • 2021-01-06
  • 2020-06-27
  • 2022-11-05
  • 2018-03-24
相关资源
最近更新 更多