【问题标题】:What is the difference between AWS Elastic MapReduce and AWS RedshiftAWS Elastic MapReduce 和 AWS Redshift 有什么区别
【发布时间】:2016-10-04 06:45:05
【问题描述】:

我看到 AWS Elastic MapReduce 和 AWS Redshift 都使用集群结构,可以用于数据分析。它们有哪些不同的用例?

Amazon Redshift 支持客户端与多种应用程序的连接,包括商业智能 (BI)、报告、数据和分析工具。

Amazon Elastic MapReduce (Amazon EMR) 是一个托管集群平台,可简化在 AWS 上运行大数据框架(例如 Apache Hadoop 和 Apache Spark)以处理和分析大量数据。

【问题讨论】:

标签: hadoop amazon-web-services amazon-ec2


【解决方案1】:

您说得对,Amazon EMR 和 Amazon Redshift 都是可以横向扩展以提供更多计算能力的集群系统。但是,这两种服务之间存在一些非常明显的差异。

Amazon EMR 提供 Apache Hadoop 和在 Hadoop 上运行的应用程序。它是一个非常灵活的系统,可以读取和处理非结构化数据,通常用于处理大数据。但是,学习 Hadoop 和相关技术可能非常困难。 (“能力越大,责任越大!”)

Amazon Redshift 是一个通过 SQL 访问的 PB 级数据仓库。数据在查询之前必须加载到 Redshift 中,这通常需要一些 for of 转换(“ETL”)。

那么选择哪一个呢?

  • 如果您想使用 SQL 并且您有 结构化数据(例如 CSV 文件),那么 Redshift 是最简单的解决方案。李>
  • 如果您想处理非结构化数据(例如奇怪的格式而不是结构化的 CSV 文件),Amazon EMR 可以提供功能强大的 Hadoop 系统。李>
  • 有时人们同时使用两者 -- 使用 Hadoop 转换数据,然后使用 Redshift 查询数据。

如果 Amazon Redshift 可以满足您的需求,请使用它而不是 Hadoop。 Redshift 使用起来更简单,因为它以标准 SQL 数据库的形式呈现,您可以在几分钟内开始使用。所有集群的东西都是幕后的,你不需要知道太多就可以使用它。

如果您需要更灵活的功能并且不介意获得低级和技术性,那么 Amazon EMR 上的 Hadoop 将为您提供更多功能。

【讨论】:

  • 感谢您的完美回答,对我来说真的很有用。由于 Hadoop,Amazon EMR 似乎需要更多的技术来理解。
猜你喜欢
  • 2019-10-04
  • 1970-01-01
  • 2015-11-20
  • 2016-02-13
  • 2018-07-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-09-19
相关资源
最近更新 更多