系统环境
Ubuntu16.0
安装版本
Spark2.4.5
Scala2.11.8
Scala安装
- 下载
wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz - 解压
tar -zxvf scala-2.11.8.tgzmv scala-2.11.8 scala - 配置环境变量
export SCALA_HOME=/home/hadoop/scalaexport PATH=$SCALA_HOME/bin - 查看安装结果
scala -version
Spark安装
-
下载
wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz -
解压
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgzmv spark-2.4.5-bin-hadoop2.7 spark -
配置环境变量
export SPARK_HOME=/home/hadoop/sparkexport PATH=$SPARK_HOME/bin -
修改spark内置文件
spark-env.shcp spark-env.sh.template spark-env.sh
相关变量配置按照实际编写export SCALA_HOME=/home/hadoop/Scala export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export SPARK_HOME=/home/hadoop/spark export SPARK_MASTER_IP=master export SPARK_EXECUTOR_MEMORY=1G export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
–
slaves文件cp slaves.template slaves
因为就一台主机,所以也用不着添加
等到后续建立集群可以添加其他节点 -
打开spark shell
$SPARK_HOME/bin/spark-shell
简单使用
对文件计数val textFile = sc.textFile("README.md")
这里的README.md是hadoop上的文件textFile.count()
结果输出文件长度