【问题标题】:How can I connect PySpark (local machine) to my EMR cluster?如何将 PySpark(本地计算机)连接到我的 EMR 集群?
【发布时间】:2017-04-16 15:53:24
【问题描述】:

我部署了一个使用 Apache Spark 引导的 3 节点 AWS ElasticMapReduce 集群。在我的本地机器上,我可以通过 SSH 访问 主节点

ssh -i <key> hadoop@ec2-xx-xxx-xxx-xxx.compute-1.amazonaws.com 一旦 ssh 进入主节点,我就可以通过 pyspark 访问 PySpark。 此外,(虽然不安全)我已将主节点的安全组配置为接受来自本地计算机 IP 地址的 TCP 流量,特别是在端口 7077 上。

但是,我仍然无法将我的 本地 PySpark 实例连接到我的集群:

MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark

上述命令会导致一些异常,并导致 PySpark 无法初始化 SparkContext 对象。

有人知道如何像我上面描述的那样成功创建远程连接吗?

【问题讨论】:

    标签: apache-spark amazon-ec2 pyspark emr


    【解决方案1】:

    除非您的本地计算机是集群的主节点,否则您不能这样做。使用 AWS EMR 将无法做到这一点。

    【讨论】:

    • 您能解释一下原因吗?我也想这样做,但需要能够解释如果这种方法行不通,为什么我不能这样做。
    • 老实说,我不介意投反对票,但您至少可以体面地评论为什么考虑到答案是有效的......
    • 这开始变得有趣了...您不喜欢这个答案并且您投反对票?这是一个有效的答案!
    • 这不是一个答案 - SO 答案至少应该包含指向支持您的答案的某个来源的链接,更好的是在您的答案中解释该来源(以便快速访问,以防链接失效)。
    • @MarkusShepherd 接受或离开。这是一个社区维基。没有文档支持它。如果你能找到答案,欢迎你尝试用一些“来源”来证明它是错误的,或者如果它仍然存在的话,可以改进它。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-05-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多