【问题标题】:Apache Spark-ec2 script: "ERROR Unknown Spark version". Broken init.sh?Apache Spark-ec2 脚本:“错误未知 Spark 版本”。损坏的init.sh?
【发布时间】:2016-11-20 17:53:02
【问题描述】:

我想使用 spark-ec2 脚本启动 AWS EC2 实例。我收到此错误:

Initializing spark
--2016-11-18 22:33:06--  http://s3.amazonaws.com/spark-related-packages/spark-1.6.3-bin-hadoop1.tgz
Resolving s3.amazonaws.com (s3.amazonaws.com)... 52.216.1.3
Connecting to s3.amazonaws.com (s3.amazonaws.com)|52.216.1.3|:80... connected.
HTTP request sent, awaiting response... 404 Not Found
2016-11-18 22:33:06 ERROR 404: Not Found.
ERROR: Unknown Spark version

本地安装的spark来自spark-1.6.3-bin-hadoop2.6.tgz,所以安装不应该尝试访问spark-1.6.3-bin-hadoop1.tgz。在 init.sh 中,当 HADOOP_MAJOR_VERSION==1 时会安装这个 spark 版本:

      if [[ "$HADOOP_MAJOR_VERSION" == "1" ]]; then
    wget http://s3.amazonaws.com/spark-related-packages/spark-$SPARK_VERSION-bin-hadoop1.tgz
  elif [[ "$HADOOP_MAJOR_VERSION" == "2" ]]; then
    wget http://s3.amazonaws.com/spark-related-packages/spark-$SPARK_VERSION-bin-cdh4.tgz
  else
    wget http://s3.amazonaws.com/spark-related-packages/spark-$SPARK_VERSION-bin-hadoop2.4.tgz
  fi
  if [ $? != 0 ]; then
    echo "ERROR: Unknown Spark version"
    return -1

问题是:

--http://s3.amazonaws.com/spark-related-packages没有带有hadoop1的spark版本,所以这就是spark安装失败的根本原因。

--HADOOP_MAJOR_VERSION 似乎在安装过程中设置为 1,即使我的安装有 Hadoop 版本 2.x,导致上述问题。

--spark_ec2.py 在安装过程中从 github 拉取最新的 spark-ec2,所以我看不到可能的本地修复。我没有信心直接从 github 分支和破解这个脚本。

关于如何解决这个问题的任何想法?

【问题讨论】:

    标签: apache-spark amazon-ec2 spark-ec2


    【解决方案1】:

    在本地调用spark-ec2脚本的时候加入这个选项解决了这个问题:

    --hadoop_major_version=2

    见:https://github.com/amplab/spark-ec2/issues/43

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-10-17
      • 1970-01-01
      • 1970-01-01
      • 2015-03-20
      • 2021-06-15
      • 1970-01-01
      相关资源
      最近更新 更多