【发布时间】:2015-10-19 16:02:31
【问题描述】:
我是 Scala、Spark 和 Maven 的新手,我想构建描述 here 的 spark 应用程序。它使用 Mahout 库。
我安装了 Scala IDE,并希望使用 Maven 来构建依赖项(即 Mahout 库和 Spark 库)。我找不到一个好的教程来开始。有人可以帮我弄清楚吗?
【问题讨论】:
标签: scala maven apache-spark mahout
我是 Scala、Spark 和 Maven 的新手,我想构建描述 here 的 spark 应用程序。它使用 Mahout 库。
我安装了 Scala IDE,并希望使用 Maven 来构建依赖项(即 Mahout 库和 Spark 库)。我找不到一个好的教程来开始。有人可以帮我弄清楚吗?
【问题讨论】:
标签: scala maven apache-spark mahout
首先尝试在 Scala IDE 中使用 Maven 编译简单的应用程序。 Maven项目的关键是目录结构和pom.xml。虽然我不使用 Scala IDE,但这个文档似乎很有帮助。 http://scala-ide.org/docs/tutorials/m2eclipse/
下一步是在 pom.xml 中添加对 Spark 的依赖,您可以按照此文档进行操作。 http://blog.cloudera.com/blog/2014/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/
有关最新版本的 Spark 和 Mahout 工件,您可以在此处查看它们: http://mvnrepository.com/artifact/org.apache.spark http://mvnrepository.com/artifact/org.apache.mahout
希望这会有所帮助。
【讨论】:
您需要以下工具才能开始使用(基于最近的可用性)-
用于 Eclipse 的 Scala IDE – 从以下位置下载最新版本的 Scala IDE here。
Scala 版本 – 2.11(确保 scala 编译器设置为 这个版本也是)
Spark 2.2 版(在 maven 中提供 依赖)
要在 Windows 环境中运行,您需要在中的 hadoop 二进制文件 窗口格式。 winutils 提供了,我们需要设置 hadoop.home.dir 系统属性到 winutils.exe 里面的 bin 路径 存在。您可以下载 winutils.exe here 并放置在路径 像这样——c:/hadoop/bin/winutils.exe
而且,您可以在 Maven POM.XML 中为您的项目定义 Spark 核心依赖项,以开始使用。
<dependency> <!-- Spark dependency -->
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.2.0</version>
<scope>provided</scope>
</dependency>
并在您的 Java/Scala 类中定义此属性,以便在 Windows 上的本地环境中运行 -
System.setProperty("hadoop.home.dir", "c://hadoop//");
更多细节和完整的设置细节可以在here找到。
【讨论】: