【问题标题】:adding packages to pyspark using jupyter notebook使用 jupyter notebook 将包添加到 pyspark
【发布时间】:2016-07-13 11:10:05
【问题描述】:

我可以使用 https://cloud.google.com/dataproc/tutorials/jupyter-notebook 成功运行带有 pyspark 的 jupyter

我的问题是 - 如果我必须将包添加到 pyspark(如 spark-csv 或 graphframes)并通过笔记本使用它们,那么最佳做法是什么? 我可以使用 --packages 选项将包添加到新的 pyspark 作业中,但是如何将新的 pyspark 上下文连接到笔记本?

【问题讨论】:

    标签: pyspark jupyter-notebook gcloud google-cloud-dataproc


    【解决方案1】:

    要让笔记本正常工作,您真的希望笔记本设置能够自行选择正确的包。由于您链接的初始化操作可确保 Jupyter 将使用集群的已配置 Spark 目录,从而获取所有必要的 YARN/filesystem/lib 配置,因此最好的方法是在集群创建时添加属性,而不是作业提交时间:

    gcloud dataproc clusters create \
        --properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0
    

    根据this StackOverflow error,设置spark-defaults.conf 属性spark.jars.packages 是更便携的等价于指定--packages 选项,因为--packages 只是spark-shell/spark-submit/pyspark 包装器中的语法糖无论如何设置spark.jars.packages 配置条目。

    【讨论】:

      猜你喜欢
      • 2016-06-27
      • 1970-01-01
      • 2021-11-23
      • 2020-07-02
      • 1970-01-01
      • 1970-01-01
      • 2017-10-17
      • 1970-01-01
      • 2021-11-15
      相关资源
      最近更新 更多