【问题标题】:Compressed Google Takeout Files - Divided .tgz file of 50 GB parts压缩的 Google Takeout 文件 - 分割为 50 GB 部分的 .tgz 文件
【发布时间】:2021-03-24 13:09:04
【问题描述】:

我使用 Google Takeout 以原始质量下载了我上传的所有 Google 相册存档。它将数据划分为 50 GB(最大选项)的压缩块。我选择了 .tgz 文件,并在我的 Raspberry pi(运行 ubuntu 20.4)中使用 rclone 下载了它们。

还有更多的 40 个文件占用 2.2 TB 空间,如下所示:

ubuntu@ubuntu:/Takeout/compressed$ ls -lah
total 2.2T
drwxrwxr-x 2 ubuntu ubuntu 4.0K Mar 19 07:24 .
drwxrwxr-x 4 ubuntu ubuntu 4.0K Mar 22 21:05 ..
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:15 takeout-20210218T203743Z-001-049.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 03:20 takeout-20210218T203743Z-001.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:16 takeout-20210218T203743Z-002-047.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 03:28 takeout-20210218T203743Z-002.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:14 takeout-20210218T203743Z-003-041.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 03:28 takeout-20210218T203743Z-003.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:16 takeout-20210218T203743Z-004-051.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 03:37 takeout-20210218T203743Z-004.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:17 takeout-20210218T203743Z-005-053.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 03:39 takeout-20210218T203743Z-005.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:12 takeout-20210218T203743Z-006-037.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 03:47 takeout-20210218T203743Z-006.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:16 takeout-20210218T203743Z-007-045.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 03:56 takeout-20210218T203743Z-007.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:15 takeout-20210218T203743Z-008-039.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 04:04 takeout-20210218T203743Z-008.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 07:12 takeout-20210218T203743Z-009-043.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 04:32 takeout-20210218T203743Z-009.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 04:58 takeout-20210218T203743Z-010.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 05:17 takeout-20210218T203743Z-011.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 05:18 takeout-20210218T203743Z-012.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 05:25 takeout-20210218T203743Z-013.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 05:40 takeout-20210218T203743Z-014.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 06:19 takeout-20210218T203743Z-015.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 06:18 takeout-20210218T203743Z-016.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:39 takeout-20210218T203743Z-017.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:35 takeout-20210218T203743Z-018.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:35 takeout-20210218T203743Z-019.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:35 takeout-20210218T203743Z-020.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:35 takeout-20210218T203743Z-021.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:34 takeout-20210218T203743Z-022.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:38 takeout-20210218T203743Z-023.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:35 takeout-20210218T203743Z-024.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:35 takeout-20210218T203743Z-025.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 08:35 takeout-20210218T203743Z-026.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 09:14 takeout-20210218T203743Z-027.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 09:16 takeout-20210218T203743Z-028.tgz
-rw-rw-r-- 1 ubuntu ubuntu  51G Feb 19 09:15 takeout-20210218T203743Z-029.tgz
-rw-rw-r-- 1 ubuntu ubuntu  50G Feb 19 09:17 takeout-20210218T203743Z-030.tgz
-rw-rw-r-- 1 ubuntu ubuntu  50G Feb 19 12:00 takeout-20210218T203743Z-031.tgz
-rw-rw-r-- 1 ubuntu ubuntu  50G Feb 19 10:29 takeout-20210218T203743Z-032.tgz
-rw-rw-r-- 1 ubuntu ubuntu  50G Feb 19 09:43 takeout-20210218T203743Z-033.tgz
-rw-rw-r-- 1 ubuntu ubuntu  50G Feb 19 11:16 takeout-20210218T203743Z-034.tgz
-rw-rw-r-- 1 ubuntu ubuntu  11G Feb 19 12:10 takeout-20210218T203743Z-035.tgz

零件编号从 1 到 35,但还有 9 个其他文件带有附加编号。我不知道这里的正确顺序是什么...

然后我尝试使用 tar 提取压缩数据的多级部分。

到目前为止,我尝试了两种方法:

  1. cat ./compressed/takeout-20210218T203743Z-*.tgz | tar xzivf - 2> error.logs 1> output.logs
  2. tar -xzf compressed/* -C ./

两者都只提取了 1.8 TB 数据而没有任何严重错误(只有三个小文件有未来的时间戳)--> 1.8T ./Takeout/

压缩文件是否可能比提取文件大?似乎我在提取时丢失了大约 400 GB。如何交叉检查多部分压缩存档中的内容并确保完全提取所有数据?

我假设有一些大文件被分成两个不同的部分,并且 tar 无法检测到,因此在提取时跳过它们。

你能帮我解决这个问题吗?

我现在请求另一个 .zip 导出,再次分成 50 GB 块。我会尝试那个,但是下载它需要大约 10 天..

【问题讨论】:

  • 不清楚您是如何知道自己有问题的,或者问题是什么。
  • @MarkAdler 我编辑了这个问题。为方便起见复制附加部分:压缩文件是否可能比提取文件大?似乎我在提取时丢失了大约 400 GB。如何交叉检查多部分压缩档案中的内容并确保完全提取所有数据?

标签: compression tar google-photos


【解决方案1】:

是的,这是有可能的,事实上在照片的情况下,压缩数据比未压缩数据略大。照片已压缩。

但是,只有非常轻微更大。通常大 0.03%。当然不会大 20%。

您显示的文件名表明存在重复文件。您可能会两次提取相同的文件。如果我假设takeout-20210218T203743Z-001-049.tgztakeout-20210218T203743Z-001.tgz 具有相同的内容,以此类推其他八个此类文件,则将提取两次 451 GB。这大约与从 2.2 TB 中提取 1.8 TB 相关。

检查的方法是使用tar tvfz file.tgz查看.tgz文件的内容。

【讨论】:

  • 感谢@MarkAdler。事实上,rclone 为这 9 个案例下载了两次相同的文件。我认为这是下载时发生的互联网连接问题的结果。在使用 tar tvfz file.tgz > file_contents.log 检查两种变体后,我发现它们包含相同的文件,然后使用 diff 命令检查它们。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-12-16
相关资源
最近更新 更多