如何让 cURL 在 Databricks 集群中工作？答案

【问题标题】：How to Get cURL Working in a Databricks Cluster?如何让 cURL 在 Databricks 集群中工作？
【发布时间】：2020-07-31 07:31:28
【问题描述】：

我有一个在 Databricks 的集群上运行的笔记本。我正在尝试使用以下命令从在线存档中下载 .jar 文件：

$sh curl -k -O https://repository.mapr.com/nexus/content/groups/mapr-public/org/apache/hive/hive-jdbc/2.1.1-mapr-1803/hive-jdbc-2.1.1-mapr-1803.jar

当我在本地机器上运行它时，它工作正常，并且 .jar 文件成功下载。当我在 Databricks 上运行它时，它会无限期地运行，从不下载任何数据。输出如下：

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:01 --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:02 --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:03 --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:04 --:--:--     0
  0     0    0     0    0     0      0      0 --:--:--  0:00:05 --:--:--     0

我怎样才能克服这个问题并将文件成功下载到我的集群中？

【问题讨论】：

标签： apache-spark curl databricks

【解决方案1】：

我可以毫无问题地将 jar 文件下载到数据块中。

您可以尝试以下选项在 databricks 中下载 jar 文件：

选项 1： 默认情况下，Curl 不遵循重定向。要让它这样做，请添加 -L 参数：

%sh curl  -L -k -O https://repository.mapr.com/nexus/content/groups/mapr-public/org/apache/hive/hive-jdbc/2.1.1-mapr-1803/hive-jdbc-2.1.1-mapr-1803.jar

如果您仍然遇到同样的问题，您可以使用“wget”选项。

注意：概括地说，wget 和 curl 都是执行相同操作的命令行实用程序。

选项2：以下示例下载文件并以与远程服务器相同的名称存储。

%sh wget https://repository.mapr.com/nexus/content/groups/mapr-public/org/apache/hive/hive-jdbc/2.1.1-mapr-1803/hive-jdbc-2.1.1-mapr-1803.jar --no-check-certificate

【讨论】：

如果我的回答对您有帮助，您可以接受它作为答案（单击答案旁边的复选标记，将其从灰色切换为已填充。）。这对其他社区成员可能是有益的。谢谢。