如何从 tarball 分别安装 Spark 和 Hadoop [Cloudera]答案

【问题标题】：how to install Spark and Hadoop from tarball separately [Cloudera]如何从 tarball 分别安装 Spark 和 Hadoop [Cloudera]
【发布时间】：2015-03-04 15:41:52
【问题描述】：

我想使用 tarball 安装 Hadoop 和 Spark 的 Cloudera 发行版。我已经在本地机器上以伪分布式模式设置了 Hadoop，并成功运行了一个 Yarn 示例。

我从here下载了最新的压缩包CDH 5.3.x

但从 Cloudera 下载的 Spark 的文件夹结构与 Apache 网站不同。这可能是因为 Cloudera 提供了自己单独维护的版本。

因此，由于我还没有找到单独从 Cloudera 的 tarball 安装 Spark 的文档。有人可以帮我理解怎么做吗？

【问题讨论】：

标签： hadoop apache-spark cloudera cloudera-cdh spark-streaming

【解决方案1】：

Spark 可以解压到任何目录。您只需要运行带有所需参数的./bin/spark-submit 命令（在提取的spark 目录中可用）即可提交作业。要启动 spark 交互式 shell，请使用命令 ./bin/spark-shell。

【讨论】：

运行时出现此错误./bin/spark-shell ls: cannot access /.../spark-1.2.0-cdh5.3.2/assembly/target/scala-2.10: No such file or directory Failed to在 /.../spark-1.2.0-cdh5.3.2/assembly/target/scala-2.10 中找到 Spark 程序集，您需要在运行此程序之前构建 Spark。
看来这个 tarball 不包含 spark 的所有依赖项。如果您在 spark 目录中创建一个虚拟文件 RELEASE 并将 .jar 文件从 spark 文件夹移动到 ./lib/，那么您所面临的错误将会消失，但您将面临另一个错误 `java.lang.NoClassDefFoundError`。如果 RELEASE 文件不存在，则假定它需要构建 spark-assembly。我已经从 Apache 网站下载了 Spark，我可以在 HDP 2.2 Sandbox 上毫无问题地使用它。此外，这个 spark 程序集 jar 文件比 CDH tarball jar 更大，并且似乎包含所有依赖项。
是的，我使用过 Apache 网站上的 Spark，但我无法理解从 Cloudera 下载的一个。并且没有构建文档