【问题标题】:Using Jupyter notebook with SparkR将 Jupyter 笔记本与 SparkR 结合使用
【发布时间】:2016-05-25 04:05:48
【问题描述】:

我想将 Jupyter 笔记本与 SparkR 一起使用,我想在 Jupyter 上安装 IR 内核,它安装在我的 Spark 集群上。

我可以找到有关使用 JupyterpySpark 的帮助,但不能找到 SparkR 的帮助。

我在AWS-EMR 集群上创建了我的Spark 集群。

【问题讨论】:

  • 你的问题是什么?

标签: sparkr jupyter-irkernel


【解决方案1】:

如果不需要使用 IRkernel,要使用 Jupyter 和 Spark,您应该考虑安装 Apache Toree 内核:https://toree.incubator.apache.org/

此内核将允许您使用任何 Spark API 将 Jupyter notebook 与 Spark 连接。它还允许使用魔法(例如 %pyspark 或 %sparkr)在单个笔记本的不同单元格中切换语言。

【讨论】:

    【解决方案2】:

    使用 Toree 创建内核后,您的 kernel.json 应该包含一个 SPARK_HOME 环境,实际上它类似于:

    “/opt/cloudera/parcels/SPARK2/lib/spark2”: "/opt/cloudera/parcels/SPARK2/lib/spark2",

    有时:

    "/opt/cloudera/parcels/SPARK2/lib/spark2": "spark-home",

    尽管我为 Scala 手动修复了 SPARK_HOME 并让 Scala 内核正常工作,但我仍然无法让 SparkR 内核为我工作,但也许内核中的错误是你应该检查的第一件事 - 如果你是使用 Toree。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2022-01-25
      • 2017-05-22
      • 1970-01-01
      • 2016-08-30
      • 1970-01-01
      • 2018-10-13
      • 2021-01-02
      • 1970-01-01
      相关资源
      最近更新 更多