Spark集群至少需要有JDK、Hadoop、Scala、Spark

依赖组件

  • java8
  • hadoop2.7
  • scala2.11
  • spark-2.3.3(待安装)

安装

目标:hadoop1、2、3、4四台机器上安装分布式spark集群。
参考:https://blog.csdn.net/sjmz30071360/article/details/82561867
安装java及hadoop略hadoop安装

1.安装scala

下载地址:https://www.scala-lang.org/download/2.11.12.html

# 解压
tar -zxvf scala-2.11.12.tgz -C /tools/
# 软链
ln -s /tools/scala-2.11.12 /tools/scala-current

环境变量(hadoop组件的环境变量在hadoop目录.bash_profile配置,公共工具配在/etc/profile

# vim /etc/profile
export SCALA_HOME=/tools/scala-current
export PATH=$PATH:$SCALA_HOME/bin
# source /etc/profile

上述所有节点机器同等。

# 分发至各机器
scp -r /tools/scala-2.11.12 hadoop4:/tools/
# 其他各机器执行
ln -s /tools/scala-2.11.12 /tools/scala-current
# 其他机器环境变量的配置(略)
source /etc/profile
2.安装spark

下载saprk参见官网 http://spark.apache.org/downloads.html
解压、软链

tar -zxvf spark-2.3.3-bin-hadoop2.7.tgz
[[email protected] ~]$ ln -s bigdata/spark-2.3.3-bin-hadoop2.7 spark-current

环境变量

# vim ~/.bash_profile
export SPARK_HOME=/home/hadoop/spark-current
export PATH=$PATH:$SPARK_HOME/bin
# 因为$SPARK_HOME/sbin目录下一些文件名和$HADOOP_HOME/bin目录下一些文件名相同,为了避免文件名冲突,这里不添加$SPARK_HOME/sbin目录                                                                                                                                                                     
# source ~/.bash_profile

3.配置conf目录下文件
[[email protected] conf]$ pwd
/home/hadoop/spark-current/conf
[[email protected] conf]$ cp spark-env.sh.template spark-env.sh
[[email protected] conf]$ cp slaves.template slaves

spark-env.sh

# vim spark-env.sh
JAVA_HOME=/home/hadoop/java-current
HADOOP_HOME=/home/hadoop/hadoop-current
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SCALA_HOME=/tools/scala-current
SPARK_HOME=/home/hadoop/spark-current
SPARK_MASTER_IP=hadoop1
SPARK_EXECUTOR_MEMORY=2G

slaves

# vim slaves
hadoop1
hadoop2
hadoop3

分发:将spark安装文件夹复制到其他机器并设环境变量。

# 以分发到hadoop2为例,3、4同理
[[email protected] bigdata]$ scp -r spark-2.3.3-bin-hadoop2.7 [email protected]:~/bigdata/
[[email protected] ~]$ ln -s ~/bigdata/spark-2.3.3-bin-hadoop2.7 ~/spark-current
# 环境变量(同上)vim .bash_profile

4.启动spark集群

因为Spark是依赖于Hadoop提供的分布式文件系统的,所以在启动Spark之前,先确保Hadoop在正常运行。hadoop安装启动
在Hadoop正常运行的情况下,在master(Hadoop的NameNode,即Spark的master节点)上
$SPARK_HOME/sbin目录下执行:
(前面必须有 ./,否则会执行$HADOOP_HOME/bin下的start-all.sh脚本)

[[email protected] ~]$ cd $SPARK_HOME
[[email protected] spark-current]$ ./sbin/start-all.sh

查看进程发现hadoop1机器有master进程,2、3、4机器有worker

[[email protected] spark-current]$ jps -l
5074 sun.tools.jps.Jps
3301 org.apache.hadoop.hdfs.server.namenode.NameNode
3736 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager
4808 org.apache.spark.deploy.master.Master

[[email protected] ~]$ jps
12676 QuorumPeerMain
27397 Worker
11526 DataNode
18558 HRegionServer
11695 NodeManager
27583 Jps

验证:
http://hadoop1:8080/
Spark安装

其他测试参考:https://blog.csdn.net/sjmz30071360/article/details/82561867

相关文章:

  • 2021-04-27
  • 2022-02-20
  • 2022-12-23
猜你喜欢
  • 2021-09-17
  • 2021-07-21
  • 2021-09-03
  • 2022-01-23
相关资源
相似解决方案