【发布时间】:2018-02-28 14:26:57
【问题描述】:
我在本地电脑上配置了一个master,在virtualbox里面配置了一个worker节点,结果文件一直在worker节点上创建,发送回master节点,我想知道这是为什么。
因为我的工作节点无法将结果发送回主节点?如何验证?
我使用 spark2.2。
我对主节点和工作节点使用相同的 用户名。
我还配置了没有密码的 ssh。
我试过 --deploy-mode client 和 --deploy-mode cluster
我试过一次,然后我切换了主/工作节点,我得到了相同的结果。
val result = joined.distinct()
result.write.mode("overwrite").format("csv")
.option("header", "true").option("delimiter", ";")
.save("file:///home/data/KPI/KpiDensite.csv")
另外,对于输入文件,我这样加载:
val commerce = spark.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true")
.option("delimiter", "|").load("file:///home/data/equip-serv-commerce-infra-2016.csv").distinct()
但是为什么我必须将文件同时放在主节点和工作节点的同一位置?我现在不使用 yarn 或 mesos。
【问题讨论】:
标签: apache-spark hadoop-yarn mesos