【问题标题】:How to run Mahout jobs on Spark Engine?如何在 Spark Engine 上运行 Mahout 作业?
【发布时间】:2015-06-03 14:41:03
【问题描述】:

目前我正在使用 Mahout RowSimilarity Job 进行一些文档相似性分析。这可以通过从控制台运行命令“mahout rowsimilarity...”轻松完成。但是我注意到这个 Job 也支持在 Spark 引擎上运行。我想知道如何在 Spark Engine 上运行此作业。

【问题讨论】:

    标签: hadoop apache-spark mahout


    【解决方案1】:

    您可以在 spark 中使用 mahout 的 MLlib 替代。 MLlib 中的所有库都以分布式模式处理(Hadoop 中的 Map-reduce)。

    在 Mahout 0.10 中,使用 spark 提供作业执行。

    更多详情链接 http://mahout.apache.org/users/sparkbindings/play-with-shell.html

    使用 mahout 设置 spark 的步骤。

    1 进入解压 Spark 的目录,输入 sbin/start-all.sh 本地启动 Spark

    2 打开浏览器,指向http://localhost:8080/,查看Spark是否启动成功。复制页面顶部spark master的url(以spark://开头)

    3 定义以下环境变量: export MAHOUT_HOME=[您检出 Mahout 的目录] export SPARK_HOME=[解压 Spark 的目录] export MASTER=[Spark 主服务器的网址]

    4 最后,切换到解压 Mahout 的目录并输入 bin/mahout spark-shell,您应该会看到 shell 启动并得到提示 mahout>。查看常见问题解答以获取进一步的故障排除。

    【讨论】:

      【解决方案2】:

      请访问link。它使用新的 mahout 0.10 并且使用 spark 服务器。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2016-02-21
        • 2018-10-29
        • 2019-06-06
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2019-05-30
        相关资源
        最近更新 更多