【问题标题】:Connect PySpark session to DataProc将 PySpark 会话连接到 DataProc
【发布时间】:2022-01-15 05:11:49
【问题描述】:

我正在尝试将本地运行的 PySpark 会话连接到 DataProc 集群。我希望能够在不下载 gcs 的情况下使用文件。我的目标是使用本地 Spark 执行临时分析,然后在我准备好扩展时切换到更大的集群。我意识到 DataProc 在 Yarn 上运行 Spark,并且我已经在本地复制了 yarn-site.xml。我还打开了从本地机器到 DataProc 主节点的 ssh 隧道,并为 yarn xml 中标识的端口设置端口转发。但它似乎不起作用,当我尝试在 Jupyter 笔记本中创建会话时,它会无限期地挂起。我看不到 stdout 或 DataProc 日志中的任何内容。有人成功了吗?

【问题讨论】:

    标签: pyspark dataproc


    【解决方案1】:

    对于任何感兴趣的人,我最终放弃了这种方法。我改为在主节点上运行 Jupyter Enterprise Gateway,设置端口转发,然后在本地启动我的笔记本以连接到服务器上运行的内核。到目前为止效果很好。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2022-10-04
      • 2018-05-14
      • 1970-01-01
      • 2016-04-19
      • 2017-11-25
      • 2018-05-12
      • 1970-01-01
      相关资源
      最近更新 更多