【发布时间】:2017-04-14 16:10:41
【问题描述】:
我有一个 HDP 2.5 集群,我正在使用 ZEPPELIN 的 %pyspark 解释器来生成代码。
我想使用一个库来帮助在 python、java 和 scala 中使用 Spark 中的时间序列分析,此处指定:https://github.com/sryza/spark-timeseries
问题是我不知道如何将这个库导入并使用到我的 ZEPPELIN %pyspark 解释器中。
首先,我下载了名为“sparkts-0.2.0-jar-with-dependencies.jar”的 .jar 文件。接下来,我将它保存在 ZEPPELIN 正在工作的集群节点的 /opt/ 目录中。
然后,我尝试使用 %dep,但在我当前的 HDP 版本中已弃用它,因此我在 ZEPPELIN“解释器”菜单中添加了一个依赖项,这样:
我重新启动解释器并在 ZEPPELIN 笔记本中尝试:
%pyspark
import sparkts
但我得到了一个错误:
ImportError: No module named sparkts
所以我的问题是:如何导入并使用这个 .jar 文件在我的 HDP 集群中使用 ZEPPELIN 进行时间序列分析?
非常感谢!
【问题讨论】:
标签: python import jar dependencies pyspark