【问题标题】:How to spin-up Spark EC2 cluster with Hadoop 2.6如何使用 Hadoop 2.6 启动 Spark EC2 集群
【发布时间】:2024-05-19 00:35:02
【问题描述】:

我正在尝试使用 Hadoop 2.6 在 Spark 1.6.1 上运行 Spark EC2 集群

-这是我尝试过的:

./spark-ec2 -i ~/.ssh/***.pem \
--instance-profile-name *** \
-k *** \
--region=us-east-1 \
--instance-type=m3.xlarge \
-s 2 \
--copy-aws-credentials \
launch test-cluster

但是,这安装了 Hadoop 1.0。所以我在上面的命令中添加了以下选项:

--hadoop-major-version=2 \

但是,我很快意识到,为了正确运行我的应用程序,我需要 Hadoop 2.6。我可以通过 --hadoop-major-verison=yarn,但这只会安装 Hadoop 2.4。

谁能告诉我一个简单的方法来做到这一点?

【问题讨论】:

  • 为什么不使用 EMR? 4.7.1 版预装了这些版本
  • 您可以直接从各自的站点下载并提取所需的 Hadoop 和 Spark 二进制文件

标签: amazon-web-services hadoop apache-spark amazon-ec2


【解决方案1】:

这几天,推荐使用AWS Command-Line Interface (CLI)

见:AWS CLI documentation for EMR create-cluster

但是,没有包含 Spark 1.6.1 和 Hadoop 2.6 的 EMR AMI 组合。最接近的是具有 Spark 1.6.1 和 Hadoop 2.7.2 的 emr-4.7.1

请参阅:AWS EMR Releases,其中显示了此图:

【讨论】:

  • 谢谢!我最终创建了一个 EMR 集群并让它工作。