如何将 PySpark（本地计算机）连接到我的 EMR 集群？答案

【问题标题】：How can I connect PySpark (local machine) to my EMR cluster?如何将 PySpark（本地计算机）连接到我的 EMR 集群？
【发布时间】：2017-04-16 15:53:24
【问题描述】：

我部署了一个使用 Apache Spark 引导的 3 节点 AWS ElasticMapReduce 集群。在我的本地机器上，我可以通过 SSH 访问 主节点：

ssh -i <key> hadoop@ec2-xx-xxx-xxx-xxx.compute-1.amazonaws.com 一旦 ssh 进入主节点，我就可以通过 pyspark 访问 PySpark。此外，（虽然不安全）我已将主节点的安全组配置为接受来自本地计算机 IP 地址的 TCP 流量，特别是在端口 7077 上。

但是，我仍然无法将我的本地 PySpark 实例连接到我的集群：

MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark

上述命令会导致一些异常，并导致 PySpark 无法初始化 SparkContext 对象。

有人知道如何像我上面描述的那样成功创建远程连接吗？

【问题讨论】：

标签： apache-spark amazon-ec2 pyspark emr

【解决方案1】：

除非您的本地计算机是集群的主节点，否则您不能这样做。使用 AWS EMR 将无法做到这一点。

【讨论】：

您能解释一下原因吗？我也想这样做，但需要能够解释如果这种方法行不通，为什么我不能这样做。
老实说，我不介意投反对票，但您至少可以体面地评论为什么考虑到答案是有效的......
这开始变得有趣了...您不喜欢这个答案并且您投反对票？这是一个有效的答案！
这不是一个答案 - SO 答案至少应该包含指向支持您的答案的某个来源的链接，更好的是在您的答案中解释该来源（以便快速访问，以防链接失效)。
@MarkusShepherd 接受或离开。这是一个社区维基。没有文档支持它。如果你能找到答案，欢迎你尝试用一些“来源”来证明它是错误的，或者如果它仍然存在的话，可以改进它。