【发布时间】:2018-08-31 16:10:59
【问题描述】:
我在 Ubuntu 18.04 上安装了 Spark 2.3.0,有两个节点:一个主节点(IP:172.16.10.20)和一个从节点(IP:172.16.10.30)。我可以检查一下这个 Spark 集群是否已经启动并正在运行
jps -lm | grep spark
14165 org.apache.spark.deploy.master.Master --host 172.16.10.20 --port 7077 --webui-port 8080
13701 org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://172.16.10.20:7077
我尝试使用这个简单的 R 脚本(使用 sparklyr 包):
library(sparklyr)
library(dplyr)
# Set your SPARK_HOME path
Sys.setenv(SPARK_HOME="/home/master/spark/spark-2.3.0-bin-hadoop2.7/")
config <- spark_config()
# Optionally you can modify config parameters here
sc <- spark_connect(master = "spark://172.16.10.20:7077", spark_home = Sys.getenv("SPARK_HOME"), config = config)
# Some test code, copying data to Spark cluster
iris_tbl <- copy_to(sc, iris)
src_tbls(sc)
spark_apply(iris_tbl, function(data) {
return(head(data))
})
所有命令都被执行,精细而流畅(但对我来说有点慢),并且火花日志保存在一个临时文件中。在查看日志文件时,我没有看到从节点的提及,这让我怀疑这个 Spark 是否真的在集群模式下运行。
如何检查主从关系是否真的有效?
【问题讨论】:
-
打开172.16.10.20:8080,你会看到所有检测到的slave。在 Web UI 中,您可以在作业详细信息中查看哪个作业执行了哪个任务
标签: r apache-spark sparklyr