【发布时间】:2018-12-02 10:58:53
【问题描述】:
我是 Apache Spark、Scala 和 Hadoop 工具的新手。
我已经设置了一个新的本地单节点 Hadoop 集群,如 here 所提到的,并且还设置了 spark 以提供对该 Hadoop 环境的引用,如 here 所提到的。
我能够验证 spark-shell、spark UI 是否已启动并正在运行。另外,我可以使用localhost 查看 HDFS。
为了更进一步,我将一个示例文件上传到 HDFS,并使用 Hadoop localhost 验证它是否可用。
现在,我尝试使用 Java 和 spark-shell (Scala) 计算文件中的行数,但两次调用都因堆栈跟踪而失败。
Exception in thread "dag-scheduler-event-loop" java.lang.NoClassDefFoundError: org/apache/hadoop/mapred/InputSplitWithLocationInfo
at org.apache.spark.rdd.HadoopRDD.getPreferredLocations(HadoopRDD.scala:329)
at org.apache.spark.rdd.RDD$$anonfun$preferredLocations$2.apply(RDD.scala:274)
at org.apache.spark.rdd.RDD$$anonfun$preferredLocations$2.apply(RDD.scala:274)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.rdd.RDD.preferredLocations(RDD.scala:273)
... removed ...
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.mapred.InputSplitWithLocationInfo
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:335)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 32 more
Java 代码(我使用 spark-submit 指定包含此代码的 jar)
public static void main(final String... args) {
SparkConf conf = new SparkConf().setAppName("hello spark");
JavaSparkContext ctx = new JavaSparkContext(conf);
JavaRDD<String> textload = ctx.textFile("README.md" );
System.out.println(textload.count());
}
pom.xml 依赖项
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.2.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.4.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapred</artifactId>
<version>0.22.0</version>
</dependency>
</dependencies>
通过 spark-shell 在命令行上的 Scala 代码
sc.textFile("README.md").count
版本详情
Hadoop 2.4.0
斯卡拉 2.11.8
Java 1.8
Apache Spark 2.2.1
我在这里错过了什么?
【问题讨论】:
标签: java scala apache-spark hadoop bigdata