【问题标题】:Installing Apache Spark on Ubuntu 14.04在 Ubuntu 14.04 上安装 Apache Spark
【发布时间】:2015-08-09 14:16:34
【问题描述】:

起初我有一个通过 ubuntu 访问的虚拟机,这个虚拟机也是 Ubuntu 14.04。我需要尽快安装 Apache Spark,但我找不到任何可以帮助我的东西或给我最好解释的参考资料。 我曾尝试将它安装在我的本地机器 Ubuntu 14.04 上,但失败了,但问题是我不想将它安装在集群上。 有什么帮助吗???

【问题讨论】:

  • 最简单的方法是下载他们的预建版本,解压缩,然后就可以开始了。
  • @ayanguha 所以这意味着首先我必须安装 Hadoop 才能继续为一些预构建的 Hadoop 版本安装 Spark??
  • @ayanguha 你知道我该如何安装它吗?因为我在我的虚拟机中工作
  • 不,您不需要 Hadoop。您只需获取他们的预构建版本并按照说明进行操作。如果你使用的是python,我可以给你一步一步的过程,供你学习。对于 prod 部署,您最好遵循 Spark 站点上的部署指南。

标签: apache-spark virtual-machine ubuntu-14.04


【解决方案1】:

您可以通过三个简单的步骤安装并开始使用 spark:

  • here.下载最新版本的Spark
  • 从终端导航到下载的文件夹并运行以下命令:

    tar -xvf spark-x.x.x.tgz        //replace x's with your version
    
  • 导航到提取的文件夹并运行以下命令之一:

    ./bin/spark-shell               // for interactive scala shell
    ./bin/pyspark                   // for interactive python shell
    

你现在准备好play with spark.

【讨论】:

  • 如果使用java而不是scala和python需要做什么??
  • @PetraRichmond 检查this..
  • ubuntu 出现错误。这可能是因为 ubuntu 有趣的 java 环境。 ubuntu@ip-172-31-60-32:~/Downloads/spark-1.4.1$ ./bin/pyspark JAVA_HOME 未设置
  • @GeoffreyAnderson 你需要为此设置你的 JAVA_HOME .. 你可以关注this link
  • @gsamaras 选择最新的spark版本..如果你不想明确构建spark,你可以选择用hadoop下载spark的预构建版本(不需要安装hadoop)
【解决方案2】:

要遵循的流程主要是这样的:

确保您已安装 Java 开发工具包 7 或 8 版

下一步安装 Scala。

然后在~/.bashrc文件末尾添加以下内容

export SCALA_HOME=<path to Scala home>
export PATH=$SCALA_HOME/bin:$PATH

重启 bashrc。

$ . .bashrc

下一步安装 git。 Spark 构建依赖于 git。

sudo apt-get install git

终于从here下载spark发行版

$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0.tgz
$ tar xvf spark-1.4.0.tgz 

建筑

SBT(Simple Build Tool) 用于构建 Spark,它是与它捆绑在一起的。编译代码

$ cd spark-1.4.0
$ build/sbt assembly

构建需要一些时间。

Refer this blog post,在这里您可以找到在 Ubuntu-14.04 上安装 Apache Spark 的更详细步骤

【讨论】:

  • 我遵循了这个答案,在构建过程中我收到了很多警告,但最后看起来构建很顺利。
  • 我得到错误:无效或损坏的 jarfile build/sbt-launch-0.13.7.jar
【解决方案3】:

这篇文章解释了在 Ubuntu/Linux 机器上设置 Apache Spark-2.0 的详细步骤。为了在 Ubuntu 机器上运行 Spark,应该安装 Java 和 Scala。 Spark 可以安装或不安装 Hadoop,在这篇文章中,我们将只安装 Spark 2.0 Standalone。在另一篇文章中解释了在 Hadoop 上安装 Spark-2.0。我们还将介绍如何使用带有 pyspark 模块的 Python 安装 Jupyter 笔记本以运行 Spark 应用程序。 那么,让我们从检查和安装 java 和 scala 开始吧。

$ scala -version
$ java –version

如果 scala 和 java 已经安装,这些命令应该打印你的版本,否则你可以使用以下命令安装它们。

$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ sudo mkdir /usr/local/src/scala
$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/

如果 java 和 scala 安装正确,您可以再次使用 –version 命令检查,这将显示 – Scala 代码运行器版本 2.10.4 -- 版权所有 2002-2013,LAMP/EPFL,对于 java,它应该显示 java版本“1.8.0_101” Java(TM) SE 运行时环境 (build 1.8.0_101-b13) Java HotSpot(TM) 64 位服务器 VM(内部版本 25.101-b14,混合模式) 并通过在末尾添加这些行来更新 .bashrc 文件。

export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH

并使用此命令重新启动 bashrc

$ . .bashrc

安装 Spark 首先使用这些选项从https://spark.apache.org/downloads.html 下载 Spark 火花Realease:2.0.0 包类型:使用 Hadoop 2.7 预构建并直接下载。

现在,到 $HOME/Downloads 并使用以下命令提取 spark tar 文件并移动到给定位置。

$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/` 
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark

将以下行添加到 ~/.bashrc 文件中。这意味着将火花软件文件所在的位置添加到PATH变量中。

export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH

再次使用这些命令重新启动环境 .bashrc source ~/.bashrc

. .bashrc

现在您可以使用这些命令启动 spark-shell

$spark-shell    for starting scala API
$ pyspark       for starting Python API

【讨论】:

  • 比接受的答案更详细。感谢@Abir。
【解决方案4】:

您可以先前往http://spark.apache.org/downloads.html 下载 Apache Spark。如果您没有需要运行的现有 Hadoop 集群/安装,则可以选择任何选项。这将为您提供一个 .tgz 文件,您可以使用 tar -xvf [filename] 提取该文件。从那里您可以启动 spark shell 并以本地模式开始。在 http://spark.apache.org/docs/latest/ 的入门指南中有更多信息。

【讨论】:

    【解决方案5】:

    我通过创建一个 Maven 项目使其工作,然后将 spark 的依赖项插入 pom.xml 文件。这就是它对我的工作方式,因为我必须使用 Java 而不是 Scala 进行编程。

    【讨论】:

      猜你喜欢
      • 2014-05-24
      • 1970-01-01
      • 2023-03-10
      • 2016-04-03
      • 2014-07-24
      • 2015-01-30
      • 2014-12-29
      • 2014-11-22
      • 2017-05-21
      相关资源
      最近更新 更多