【问题标题】:Spark running on EC2 vs EMR [duplicate]在 EC2 与 EMR 上运行的 Spark [重复]
【发布时间】:2016-07-08 14:00:15
【问题描述】:

我们是正在从事与数据科学相关的毕业项目的学生,我们正在开发一个使用 Spark 和 python (Pyspark) 和 Android 应用程序(用户界面)的推荐引擎,我们面临很多障碍,其中之一是如何保持 Spark 脚本在云上正常运行,以实现快速处理和实时结果。 我们所知道的 EMR 比 EC2 更新,并且已经安装了 Hadoop。 我们仍然很难决定使用哪个以及它们在处理 Spark 时有什么区别。

【问题讨论】:

  • EMR 更简单,这应该是您主要关心的问题。 EMR 只是在 EC2 上运行的 Hadoop,为您预先配置,需要额外的钱。

标签: python amazon-web-services amazon-ec2 apache-spark amazon-emr


【解决方案1】:

EMR 提供了一个简单易用的 Hadoop/spark 作为服务。您只需选择要安装的组件(spark、hadoop)、它们的版本、要使用的机器数量以及其他几个选项,然后它会为您安装所有内容。由于您是学生,我假设您没有使用 Ansible、Puppet 或 Chef 等自动化工具的经验,而且您可能从未需要维护自己的 hadoop 集群。如果是这种情况,我会明确建议 EMR。作为一个有经验的 hadoop/spark 用户,同时我可以告诉你它有自己的局限性。当我 6 个月前使用它时,我想使用最新版本的 EMR(如果没记错的话是 4.0),因为它支持最新版本的 Spark,而且我几乎没有头疼地定制它来安装 Java 8 而不是提供的 Java 7。我相信这是他们支持 Java 8 的早期阶段,他们现在应该已经解决了这个问题。但这正是所有“全包”解决方案所缺少的,灵活性,尤其是如果您是专家级用户。

【讨论】:

    【解决方案2】:

    您还可以查看flintrock,这是一个不错的 python cli,可以让 Spark 集群在 ec2 上快速无缝地运行。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-06-03
      • 1970-01-01
      • 2014-03-13
      • 1970-01-01
      • 1970-01-01
      • 2017-03-03
      • 2020-10-31
      • 1970-01-01
      相关资源
      最近更新 更多