如何将外部 jar 库导入 Hortonworks 中的 ZEPPELIN？答案

【问题标题】：How could I import an external jar library to ZEPPELIN in Hortonworks?如何将外部 jar 库导入 Hortonworks 中的 ZEPPELIN？
【发布时间】：2017-04-14 16:10:41
【问题描述】：

我有一个 HDP 2.5 集群，我正在使用 ZEPPELIN 的 %pyspark 解释器来生成代码。

我想使用一个库来帮助在 python、java 和 scala 中使用 Spark 中的时间序列分析，此处指定：https://github.com/sryza/spark-timeseries

问题是我不知道如何将这个库导入并使用到我的 ZEPPELIN %pyspark 解释器中。

首先，我下载了名为“sparkts-0.2.0-jar-with-dependencies.jar”的 .jar 文件。接下来，我将它保存在 ZEPPELIN 正在工作的集群节点的 /opt/ 目录中。

然后，我尝试使用 %dep，但在我当前的 HDP 版本中已弃用它，因此我在 ZEPPELIN“解释器”菜单中添加了一个依赖项，这样：

我重新启动解释器并在 ZEPPELIN 笔记本中尝试：

%pyspark

import sparkts

但我得到了一个错误：

ImportError: No module named sparkts

所以我的问题是：如何导入并使用这个 .jar 文件在我的 HDP 集群中使用 ZEPPELIN 进行时间序列分析？

非常感谢！

【问题讨论】：

标签： python import jar dependencies pyspark

【解决方案1】：

由于它是一个 Python 库，如果您使用 YARN 等资源管理器在集群顶部运行 zeppelin，则需要在集群的每个节点上安装它'正在使用像 Livy 这样的口译员来分配你的工作。如果该库无法通过 PIP 获得，您可以通过运行 setup.py （如果有的话）安装它，或者作为最后的手段，直接向 Pyspark shell 提供 jar 文件，例如 spark-shell --jars （不是 Zeppelin 的解决方案不过）

【讨论】：