【发布时间】:2017-04-16 15:53:24
【问题描述】:
我部署了一个使用 Apache Spark 引导的 3 节点 AWS ElasticMapReduce 集群。在我的本地机器上,我可以通过 SSH 访问 主节点:
ssh -i <key> hadoop@ec2-xx-xxx-xxx-xxx.compute-1.amazonaws.com
一旦 ssh 进入主节点,我就可以通过 pyspark 访问 PySpark。
此外,(虽然不安全)我已将主节点的安全组配置为接受来自本地计算机 IP 地址的 TCP 流量,特别是在端口 7077 上。
但是,我仍然无法将我的 本地 PySpark 实例连接到我的集群:
MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark
上述命令会导致一些异常,并导致 PySpark 无法初始化 SparkContext 对象。
有人知道如何像我上面描述的那样成功创建远程连接吗?
【问题讨论】:
标签: apache-spark amazon-ec2 pyspark emr