Amazon Elastic MapReduce 上的 Spark Java 错误 NoClassDefFoundError答案

【问题标题】：Spark Java error NoClassDefFoundError on Amazon Elastic MapReduceAmazon Elastic MapReduce 上的 Spark Java 错误 NoClassDefFoundError
【发布时间】：2014-08-06 09:10:33
【问题描述】：

我正在尝试在 Amazon 的 Elastic MapReduce (EMR) 上实施和运行 Spark 应用程序。到目前为止，我已经能够使用以下链接通过“Spark 安装”引导操作部署和运行集群：

s3://elasticmapreduce/samples/spark/0.8.1/install-spark-shark.sh

脚本可以从this互联网方向访问。

为了将.jar应用上传到集群，我创建了一个步骤配置如下：

 HadoopJarStepConfig customConfig = new HadoopJarStepConfig()
                 .withJar("s3://mybucket/SparkApp.jar")
                 .withMainClass("SparkApp.java");

 StepConfig customJarStep = new StepConfig()
                 .withName("Run custom jar")                                                                                    
                 .withActionOnFailure(ActionOnFailure.CONTINUE)
                 .withHadoopJarStep(customConfig);

最后，以下代码展示了从 Spark 团队提供的 wordcount 示例中提取的实际 Spark 应用程序（适用于 0.8.1 版本）。您可能会注意到，代码导入了不同的 spark 库以运行应用程序。这些库是：

spark-core_2.9.3-0.8.1-incubating.jar （和） scala-library-2.9.3.jar

import scala.Tuple2;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;

import java.util.Arrays;
import java.util.List;

public class SparkApp {
  public static void main(String[] args) throws Exception {

    JavaSparkContext ctx = new JavaSparkContext("local", "JavaWordCount",
        System.getenv("SPARK_HOME"), System.getenv("SPARK_EXAMPLES_JAR"));
    JavaRDD<String> lines = ctx.textFile("c3://murquiabucket/wordcount.txt", 1);

    JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
      public Iterable<String> call(String s) {
        return Arrays.asList(s.split(" "));
      }
    });

    JavaPairRDD<String, Integer> ones = words.map(new PairFunction<String, String, Integer>() {
      public Tuple2<String, Integer> call(String s) {
        return new Tuple2<String, Integer>(s, 1);
      }
    });

    JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
      public Integer call(Integer i1, Integer i2) {
        return i1 + i2;
      }
    });

    List<Tuple2<String, Integer>> output = counts.collect();
    for (Tuple2 tuple : output) {
      System.out.println(tuple._1 + ": " + tuple._2);
    }
    System.exit(0);
  }
}

当我尝试在 EMR 集群中执行 jar（我制作了一个 fat jar 来嵌入必要的库）时，问题就出现了。由于以下错误，应用程序未成功终止：

线程“主”java.lang.NoClassDefFoundError 中的异常： org/apache/mesos/调度程序在 java.lang.ClassLoader.defineClass1(Native Method) ...

据我了解，Mesos 存在问题，我无法理解。如果此信息有帮助，这是 EMR 集群的信息：

AMI 版本：2.4.2
Hadoop 发行版：Amazon 1.0.3
Spark 版本：0.8.1
Scala 版本：2.9.3

【问题讨论】：

所以你尝试构建一个胖罐子？它仍然没有工作？我怀疑您导入的 Spark 版本与集群上的版本不同。您要导入什么版本的 Spark？
@samthebest 我检查了亚马逊在link 提供的引导文件，似乎 Spark 版本是 0.5，而我的应用程序是使用 1.0 版本开发的。我现在会检查它是否有效。
哇 0.5 来自石器时代。上次我检查时，我以为他们在 0.8.1 上（更像青铜时代）。
@samthebest 是的，我现在切换到 0.8.1 版本：P。我再次制作了一个胖罐子，但出现了不同的 NoClassDefFoundError，这次是指 mesos 调度程序。我已经更新了问题以适应这种新情况。
请包括您拉入的 maven artifact 的所有坐标。

标签： java mapreduce apache-spark emr

【解决方案1】：

正如@samthebest 对上述 cmets 所指出的，该错误实际上是由于 EMR 和我的应用程序上的 Spark 版本不匹配错误。

我从这个错误中了解到，检查在执行自定义应用程序时使用的所有库和应用程序是否使用与集群相同的版本非常重要。

【讨论】：

提示：不要使用电子病历！我们使用 EC2 并坚持使用 Cloudera 包来为我们的 jar 安装 spark 和 cloudera maven 坐标。
确实如此。我在设置 Spark EMR 基础架构时遇到了太多复杂问题，因此我切换到 Spark Standalone，现在我可以非常快速地运行自己的复杂应用程序。感谢您的提示！