如何在 Spark Engine 上运行 Mahout 作业？答案

【问题标题】：How to run Mahout jobs on Spark Engine?如何在 Spark Engine 上运行 Mahout 作业？
【发布时间】：2015-06-03 14:41:03
【问题描述】：

目前我正在使用 Mahout RowSimilarity Job 进行一些文档相似性分析。这可以通过从控制台运行命令“mahout rowsimilarity...”轻松完成。但是我注意到这个 Job 也支持在 Spark 引擎上运行。我想知道如何在 Spark Engine 上运行此作业。

【问题讨论】：

【解决方案1】：

您可以在 spark 中使用 mahout 的 MLlib 替代。 MLlib 中的所有库都以分布式模式处理（Hadoop 中的 Map-reduce）。

在 Mahout 0.10 中，使用 spark 提供作业执行。

使用 mahout 设置 spark 的步骤。

1 进入解压 Spark 的目录，输入 sbin/start-all.sh 本地启动 Spark

2 打开浏览器，指向http://localhost:8080/，查看Spark是否启动成功。复制页面顶部spark master的url（以spark://开头）

3 定义以下环境变量： export MAHOUT_HOME=[您检出 Mahout 的目录] export SPARK_HOME=[解压 Spark 的目录] export MASTER=[Spark 主服务器的网址]

4 最后，切换到解压 Mahout 的目录并输入 bin/mahout spark-shell，您应该会看到 shell 启动并得到提示 mahout>。查看常见问题解答以获取进一步的故障排除。

【讨论】：

【解决方案2】：

请访问link。它使用新的 mahout 0.10 并且使用 spark 服务器。

【讨论】：