【问题标题】:how to install Spark and Hadoop from tarball separately [Cloudera]如何从 tarball 分别安装 Spark 和 Hadoop [Cloudera]
【发布时间】:2015-03-04 15:41:52
【问题描述】:

我想使用 tarball 安装 Hadoop 和 Spark 的 Cloudera 发行版。 我已经在本地机器上以伪分布式模式设置了 Hadoop,并成功运行了一个 Yarn 示例。

我从here下载了最新的压缩包CDH 5.3.x

但从 Cloudera 下载的 Spark 的文件夹结构与 Apache 网站不同。这可能是因为 Cloudera 提供了自己单独维护的版本。

因此,由于我还没有找到单独从 Cloudera 的 tarball 安装 Spark 的文档。 有人可以帮我理解怎么做吗?

【问题讨论】:

    标签: hadoop apache-spark cloudera cloudera-cdh spark-streaming


    【解决方案1】:

    Spark 可以解压到任何目录。您只需要运行带有所需参数的./bin/spark-submit 命令(在提取的spark 目录中可用)即可提交作业。要启动 spark 交互式 shell,请使用命令 ./bin/spark-shell

    【讨论】:

    • 运行时出现此错误./bin/spark-shell ls: cannot access /.../spark-1.2.0-cdh5.3.2/assembly/target/scala-2.10: No such file or directory Failed to在 /.../spark-1.2.0-cdh5.3.2/assembly/target/scala-2.10 中找到 Spark 程序集,您需要在运行此程序之前构建 Spark。
    • 看来这个 tarball 不包含 spark 的所有依赖项。如果您在 spark 目录中创建一个虚拟文件 RELEASE 并将 .jar 文件从 spark 文件夹移动到 ./lib/,那么您所面临的错误将会消失,但您将面临另一个错误 `java.lang.NoClassDefFoundError`。如果 RELEASE 文件不存在,则假定它需要构建 spark-assembly。我已经从 Apache 网站下载了 Spark,我可以在 HDP 2.2 Sandbox 上毫无问题地使用它。此外,这个 spark 程序集 jar 文件比 CDH tarball jar 更大,并且似乎包含所有依赖项。
    • 是的,我使用过 Apache 网站上的 Spark,但我无法理解从 Cloudera 下载的一个。并且没有构建文档
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-01-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多