【问题标题】:How to Get cURL Working in a Databricks Cluster?如何让 cURL 在 Databricks 集群中工作?
【发布时间】:2020-07-31 07:31:28
【问题描述】:

我有一个在 Databricks 的集群上运行的笔记本。我正在尝试使用以下命令从在线存档中下载 .jar 文件:

$sh curl -k -O https://repository.mapr.com/nexus/content/groups/mapr-public/org/apache/hive/hive-jdbc/2.1.1-mapr-1803/hive-jdbc-2.1.1-mapr-1803.jar

当我在本地机器上运行它时,它工作正常,并且 .jar 文件成功下载。当我在 Databricks 上运行它时,它会无限期地运行,从不下载任何数据。输出如下:

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:01 --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:02 --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:03 --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:04 --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:05 --:--:--     0

我怎样才能克服这个问题并将文件成功下载到我的集群中?

【问题讨论】:

    标签: apache-spark curl databricks


    【解决方案1】:

    我可以毫无问题地将 jar 文件下载到数据块中。

    您可以尝试以下选项在 databricks 中下载 jar 文件:

    选项 1: 默认情况下,Curl 不遵循重定向。要让它这样做,请添加 -L 参数:

    %sh curl  -L -k -O https://repository.mapr.com/nexus/content/groups/mapr-public/org/apache/hive/hive-jdbc/2.1.1-mapr-1803/hive-jdbc-2.1.1-mapr-1803.jar
    

    如果您仍然遇到同样的问题,您可以使用“wget”选项。

    注意:概括地说,wget 和 curl 都是执行相同操作的命令行实用程序。

    选项2:以下示例下载文件并以与远程服务器相同的名称存储。

    %sh wget https://repository.mapr.com/nexus/content/groups/mapr-public/org/apache/hive/hive-jdbc/2.1.1-mapr-1803/hive-jdbc-2.1.1-mapr-1803.jar --no-check-certificate
    

    【讨论】:

    • 如果我的回答对您有帮助,您可以接受它作为答案(单击答案旁边的复选标记,将其从灰色切换为已填充。)。这对其他社区成员可能是有益的。谢谢。
    猜你喜欢
    • 1970-01-01
    • 2018-08-04
    • 2020-02-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-12-16
    • 2020-03-03
    • 1970-01-01
    相关资源
    最近更新 更多