这篇文章解释了在 Ubuntu/Linux 机器上设置 Apache Spark-2.0 的详细步骤。为了在 Ubuntu 机器上运行 Spark,应该安装 Java 和 Scala。 Spark 可以安装或不安装 Hadoop,在这篇文章中,我们将只安装 Spark 2.0 Standalone。在另一篇文章中解释了在 Hadoop 上安装 Spark-2.0。我们还将介绍如何使用带有 pyspark 模块的 Python 安装 Jupyter 笔记本以运行 Spark 应用程序。
那么,让我们从检查和安装 java 和 scala 开始吧。
$ scala -version
$ java –version
如果 scala 和 java 已经安装,这些命令应该打印你的版本,否则你可以使用以下命令安装它们。
$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz
$ sudo mkdir /usr/local/src/scala
$ sudo tar xvf scala-2.10.4.tgz -C /usr/local/scala/
如果 java 和 scala 安装正确,您可以再次使用 –version 命令检查,这将显示 –
Scala 代码运行器版本 2.10.4 -- 版权所有 2002-2013,LAMP/EPFL,对于 java,它应该显示
java版本“1.8.0_101”
Java(TM) SE 运行时环境 (build 1.8.0_101-b13)
Java HotSpot(TM) 64 位服务器 VM(内部版本 25.101-b14,混合模式)
并通过在末尾添加这些行来更新 .bashrc 文件。
export SCALA_HOME=/usr/local/scala/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
并使用此命令重新启动 bashrc
$ . .bashrc
安装 Spark
首先使用这些选项从https://spark.apache.org/downloads.html 下载 Spark
火花Realease:2.0.0
包类型:使用 Hadoop 2.7 预构建并直接下载。
现在,到 $HOME/Downloads 并使用以下命令提取 spark tar 文件并移动到给定位置。
$ `tar xvf spark-1.3.1-bin-hadoop2.6.tgz`
$ `cd $HOME/Downloads/`
$ mv spark-2.0.0-bin-hadoop2.7 /usr/local/spark
将以下行添加到 ~/.bashrc 文件中。这意味着将火花软件文件所在的位置添加到PATH变量中。
export SPARK_HOME=/usr/local/spark
export PATH =$SPARK_HOME/bin:$PATH
再次使用这些命令重新启动环境 .bashrc
source ~/.bashrc 或
. .bashrc
现在您可以使用这些命令启动 spark-shell
$spark-shell for starting scala API
$ pyspark for starting Python API