【问题标题】:Download file from Kaggle to Google Colab将文件从 Kaggle 下载到 Google Colab
【发布时间】:2020-10-21 16:18:05
【问题描述】:

我想将手语数据集从 Kaggle 下载到我的 Colab。

到目前为止,我一直使用 wget 和特定的 zip 文件链接,例如:

!wget --no-check-certificate \
    https://storage.googleapis.com/laurencemoroney-blog.appspot.com/rps.zip \
    -O /tmp/rps.zip

但是,当我在 Kaggle 上右键单击下载按钮并选择复制链接以将路径复制到我的剪贴板并输出它时,我得到:

https://www.kaggle.com/datamunge/sign-language-mnist/download

当我在浏览器中使用此链接时,系统会要求我下载它。我可以看到文件名是3258_5337_bundle_archive.zip

所以我尝试了:

!wget --no-check-certificate \
        https://www.kaggle.com/datamunge/sign-language-mnist/download3258_5337_bundle_archive.zip  \
        -O /tmp/kds.zip

也试过了:

 !wget --no-check-certificate \
            https://www.kaggle.com/datamunge/sign-language-mnist/download3258_5337_bundle_archive.zip  \
            -O /tmp/kds.zip

我得到输出:

所以它不起作用。找不到文件或返回的 zip 存档不是 101mb 大,而只有几 kb。解压的时候也是不行的。

如何将此文件下载到我的 colab 中(直接使用 wget?)?

【问题讨论】:

标签: ubuntu download wget google-colaboratory kaggle


【解决方案1】:

Kaggle 建议使用他们自己的 API 而不是 wget 或 rsync。

首先,为 Kaggle 创建一个 API 令牌。在 Kaggle 的网站上,转到“我的帐户”,滚动到 API 部分并单击“创建新的 API 令牌” - 它会在您的机器上下载 kaggle.json 文件。

然后在 Google Colab 中运行以下命令:

from google.colab import files
files.upload() # Browse for the kaggle.json file that you downloaded

# Make directory named kaggle, copy kaggle.json file there, and change the permissions of the file.
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json

# You can check if everything's okay by running this command.
! kaggle datasets list

# Download and unzip sign-language-mnist dataset into '/usr/local'
! kaggle datasets download -d datamunge/sign-language-mnist --path '/usr/local' --unzip

来自这里的使用信息:https://www.kaggle.com/general/74235

【讨论】:

    【解决方案2】:

    这是我想出的最简单的方法(如果您参加比赛,只需将数据集更改为比赛):

    import os
    
    os.environ['KAGGLE_USERNAME'] = "xxxx"
    
    os.environ['KAGGLE_KEY'] = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
    
    !kaggle datasets download -d iarunava/happy-house-dataset
    

    【讨论】: