【问题标题】:How to unzip large zip file in google colab pro?如何在 google colab pro 中解压缩大的 zip 文件?
【发布时间】:2020-11-05 06:33:04
【问题描述】:

无法从 colab 笔记本解压缩文件夹中的 30 GB 数据。我使用 kaggle api 调用下载了 30GB 的压缩数据集。但是,当我尝试使用 !unzip destination_folder_name -d source_name 解压缩数据集时,它会引发错误或错误的 zip 偏移。该文件夹包含 .png 格式的图像和蒙版。 zip 文件中有 2 个文件夹,每个文件夹包含 256k 个样本中的掩码和图像。下面我附上错误的图像

在 google colab pro 中尝试使用哪个命令解压缩该数据集?

数据集链接:https://www.kaggle.com/raghaw/panda-dataset-medium-25-256-256

【问题讨论】:

  • 听起来存档已损坏。
  • @tripleee 不,它没有损坏,我们也在本地机器上下载并检查了数据

标签: python linux unix google-colaboratory unzip


【解决方案1】:

在解压缩之前将文件从 Drive 复制到本地磁盘。

结果将更快、更可靠的 I/O。

原因是 DriveFS FUSE 性能受到每个文件速率限制的限制。对于解压缩大型存档的典型小文件,此速率限制将主导 I/O 性能并导致类似于您观察到的神秘错误。

【讨论】:

  • 将文件从驱动器复制到本地磁盘是什么意思?我可以卸载驱动器并在 google colab 中获取 zip 文件,你希望我将该文件从 google 驱动器复制到 google colab 工作环境吗?那你想让我使用哪个命令? !cp ?
  • 而不是直接在云端硬盘中的!unzip ...,首先复制到/content,如下所示:!cp /content/.../panda-dataset-medium-25-256-256.zip /content && !unzip /content/panda-dataset-medium-25-256-256.zip
  • 我试过这个:os.listdir('../content/drive/My Drive/New_Data') 得到了这个:['panda-dataset-medium-25-256-256.zip' ] 然后这个命令: !cp '/content/drive/My Drive/New_Data/panda-dataset-medium-25-256-256.zip' /content && !unzip /content/panda-dataset-medium-25-256- 256.zip 并收到此错误:cp: error reading '/content/drive/My Drive/New_Data/panda-dataset-medium-25-256-256.zip': Input/output error
  • 我怀疑您已达到该文件的每日云端硬盘传输配额。您可以尝试在云端硬盘 UI 中复制文件,并在 Colab 中复制云端硬盘中复制的 .zip 文件的文件路径吗?
  • 创建了一个名为 : Copy of panda-dataset-medium-25-256-256.zip 然后 !cp '/content/drive/My Drive/New_Data/Copy of panda-dataset-medium -25-256-256.zip' /content && !unzip /content/panda-dataset-medium-25-256-256.zip 再次出现同样的错误
猜你喜欢
  • 2022-08-19
  • 2018-11-08
  • 2021-12-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-07-06
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多