【问题标题】:pyspark on Google Cloud DatalabGoogle Cloud Datalab 上的 pyspark
【发布时间】:2019-01-11 07:15:33
【问题描述】:

如何在 google-cloud-datalab notebook 中导入 pyspark? 即使在节点上设置了 PYTHONPATH、SPARK_HOME 后,它也不起作用?我错过了什么吗?

ImportErrorTraceback (most recent call last)  
  <ipython-input-4-c15ae3402d12> in <module>()
     ----> 1 import pyspark

ImportError: No module named pyspark

【问题讨论】:

    标签: google-cloud-platform google-cloud-datalab


    【解决方案1】:

    正如 Fematich 所说,不幸的是,它还不支持。但是,Datalab is open source,如果您愿意,可以修改 Dockerfile 以添加 pyspark 并构建自己的映像。如果您认为其他人也可能对此感兴趣,您也可以发送拉取请求。

    【讨论】:

      【解决方案2】:

      您可以通过初始化操作在 Cloud Dataproc 上方便地运行 Datalab:

      https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/datalab

      这将允许您与 pySpark 环境进行交互。

      或者,您可以编辑 Dataproc Docker 映像以包含 spark(使用 pyspark)。这将允许您在任何地方(本地或虚拟机)使用 spark 运行 Datalab。

      【讨论】:

        【解决方案3】:

        Datalab 目前还不支持 (py)Spark(另请查看他们的 roadmap)。在 Google Cloud Platform 上,目前最简单的选择是使用 Jupyter 笔记本部署 DataProc 集群,请参阅文档here

        请注意,Dataproc 团队也在 StackOverflow 上,因此他将能够为您提供有关路线图的更多信息。

        【讨论】:

          猜你喜欢
          • 2018-09-12
          • 2016-11-12
          • 2017-03-17
          • 1970-01-01
          • 2023-03-29
          • 2018-09-19
          • 1970-01-01
          • 1970-01-01
          • 2020-06-13
          相关资源
          最近更新 更多