【问题标题】:How could I import an external jar library to ZEPPELIN in Hortonworks?如何将外部 jar 库导入 Hortonworks 中的 ZEPPELIN?
【发布时间】:2017-04-14 16:10:41
【问题描述】:

我有一个 HDP 2.5 集群,我正在使用 ZEPPELIN 的 %pyspark 解释器来生成代码。

我想使用一个库来帮助在 python、java 和 scala 中使用 Spark 中的时间序列分析,此处指定:https://github.com/sryza/spark-timeseries

问题是我不知道如何将这个库导入并使用到我的 ZEPPELIN %pyspark 解释器中。

首先,我下载了名为“sparkts-0.2.0-jar-with-dependencies.jar”的 .jar 文件。接下来,我将它保存在 ZEPPELIN 正在工作的集群节点的 /opt/ 目录中。

然后,我尝试使用 %dep,但在我当前的 HDP 版本中已弃用它,因此我在 ZEPPELIN“解释器”菜单中添加了一个依赖项,这样:

我重新启动解释器并在 ZEPPELIN 笔记本中尝试:

%pyspark

import sparkts

但我得到了一个错误:

ImportError: No module named sparkts

所以我的问题是:如何导入并使用这个 .jar 文件在我的 HDP 集群中使用 ZEPPELIN 进行时间序列分析?

非常感谢!

【问题讨论】:

    标签: python import jar dependencies pyspark


    【解决方案1】:

    由于它是一个 Python 库,如果您使用 YARN 等资源管理器在集群顶部运行 zeppelin,则需要在集群的每个节点上安装它'正在使用像 Livy 这样的口译员来分配你的工作。如果该库无法通过 PIP 获得,您可以通过运行 setup.py (如果有的话)安装它,或者作为最后的手段,直接向 Pyspark shell 提供 jar 文件,例如 spark-shell --jars (不是 Zeppelin 的解决方案不过)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-05-22
      • 1970-01-01
      • 2015-12-22
      • 1970-01-01
      • 2011-01-03
      • 2018-12-22
      • 2021-12-11
      • 1970-01-01
      相关资源
      最近更新 更多