【问题标题】:How to install gdal on databricks cluster?如何在databricks集群上安装gdal?
【发布时间】:2020-03-03 01:48:01
【问题描述】:

我正在尝试在 Azure Databricks 群集上安装包 GDAL。我绝对不能让它工作。

我尝试过但不起作用的方法:

  1. 通过对应集群的library tab --> Install New --> PyPi (在Library Source下) --> 在Package下输入gdal /p>

  2. 尝试了https://forums.databricks.com/questions/13738/gdal-installation.html 中提到的所有方法。他们都没有工作。

详情:

  1. 运行时:6.1(包括 Apache Spark 2.4.4、Scala 2.11)(使用运行时 3.5 时,我让 GDAL 工作,但由于其他原因,需要更新到更高的运行时.)

  2. 我们使用的是 python 3.7。

【问题讨论】:

    标签: python azure gdal databricks


    【解决方案1】:

    最后,我们通过使用 ML 运行时并结合 forums.databricks.com/answers/21118/view.html 中给出的答案来实现它。显然,ML 运行时包含 conda,这是上一个链接中给出的答案所必需的。

    【讨论】:

    • 已确认。通过在集群设置中使用 Databricks Runtime Version "7.4 ML (includes Apache Spark 3.0.1, Scala 2.12)" 意味着 Notebook 中的 python 代码可以成功运行: conda install gdal=2.3.3
    【解决方案2】:

    我已经回答过类似的问题。 请检查下面的链接将帮助您安装所需的库:

    How can I download GeoMesa on Azure Databricks?

    为了您的方便,我再次粘贴答案...您只需要从搜索区域中选择所需的库即可。

    您可以将 GDAL 库直接安装到您的 Databricks 集群中。

    1) 选择库选项,然后将打开一个新窗口。

    2) 选择 maven 选项并点击“搜索包”选项

    3) 搜索所需的库并选择库/jar 版本并选择“选择”选项。 而已。

    安装库/jar 后,重新启动集群。现在在 Databricks 笔记本中导入所需的类。 我希望它有所帮助。快乐编码..

    【讨论】:

    • 不幸的是,它仍然不起作用。 GDAL 已安装,但是当尝试在 Databricks 笔记本中导入 GDAL 时,我收到 ModuleNotFoundError:没有名为“gdal”的模块。任何想法为什么会发生这种情况?
    • 你重启集群了吗??
    • 是的,我重启了集群
    【解决方案3】:

    pip install https://manthey.github.io/large_image_wheels/GDAL-3.1.0-cp38-cp38-manylinux2010_x86_64.whl

    看起来你可以使用这个 whl 文件并安装包,但是当运行像 GDAL.Translate 这样的任务时,它实际上不会运行。这是我到过的最远的地方。

    我在搜索 GDAL 需要的二进制文件时找到了上面的 URL。请注意,每次启动集群时都必须运行它。

    【讨论】:

    • “不知何故这有效”可能不是回答问题的最有用的方式。为什么它有效?你从哪里得到的网址?
    猜你喜欢
    • 1970-01-01
    • 2020-05-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-02-05
    • 1970-01-01
    • 1970-01-01
    • 2017-07-23
    相关资源
    最近更新 更多