使用 jupyter notebook 将包添加到 pyspark

【问题标题】：adding packages to pyspark using jupyter notebook使用 jupyter notebook 将包添加到 pyspark
【发布时间】：2016-07-13 11:10:05
【问题描述】：

我可以使用 https://cloud.google.com/dataproc/tutorials/jupyter-notebook 成功运行带有 pyspark 的 jupyter

我的问题是 - 如果我必须将包添加到 pyspark（如 spark-csv 或 graphframes）并通过笔记本使用它们，那么最佳做法是什么？我可以使用 --packages 选项将包添加到新的 pyspark 作业中，但是如何将新的 pyspark 上下文连接到笔记本？

【问题讨论】：

标签： pyspark jupyter-notebook gcloud google-cloud-dataproc

【解决方案1】：

要让笔记本正常工作，您真的希望笔记本设置能够自行选择正确的包。由于您链接的初始化操作可确保 Jupyter 将使用集群的已配置 Spark 目录，从而获取所有必要的 YARN/filesystem/lib 配置，因此最好的方法是在集群创建时添加属性，而不是作业提交时间：

gcloud dataproc clusters create \
    --properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0

根据this StackOverflow error，设置spark-defaults.conf 属性spark.jars.packages 是更便携的等价于指定--packages 选项，因为--packages 只是spark-shell/spark-submit/pyspark 包装器中的语法糖无论如何设置spark.jars.packages 配置条目。

【讨论】：