【发布时间】:2021-03-24 13:09:04
【问题描述】:
我使用 Google Takeout 以原始质量下载了我上传的所有 Google 相册存档。它将数据划分为 50 GB(最大选项)的压缩块。我选择了 .tgz 文件,并在我的 Raspberry pi(运行 ubuntu 20.4)中使用 rclone 下载了它们。
还有更多的 40 个文件占用 2.2 TB 空间,如下所示:
ubuntu@ubuntu:/Takeout/compressed$ ls -lah
total 2.2T
drwxrwxr-x 2 ubuntu ubuntu 4.0K Mar 19 07:24 .
drwxrwxr-x 4 ubuntu ubuntu 4.0K Mar 22 21:05 ..
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:15 takeout-20210218T203743Z-001-049.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 03:20 takeout-20210218T203743Z-001.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:16 takeout-20210218T203743Z-002-047.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 03:28 takeout-20210218T203743Z-002.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:14 takeout-20210218T203743Z-003-041.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 03:28 takeout-20210218T203743Z-003.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:16 takeout-20210218T203743Z-004-051.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 03:37 takeout-20210218T203743Z-004.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:17 takeout-20210218T203743Z-005-053.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 03:39 takeout-20210218T203743Z-005.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:12 takeout-20210218T203743Z-006-037.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 03:47 takeout-20210218T203743Z-006.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:16 takeout-20210218T203743Z-007-045.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 03:56 takeout-20210218T203743Z-007.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:15 takeout-20210218T203743Z-008-039.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 04:04 takeout-20210218T203743Z-008.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 07:12 takeout-20210218T203743Z-009-043.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 04:32 takeout-20210218T203743Z-009.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 04:58 takeout-20210218T203743Z-010.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 05:17 takeout-20210218T203743Z-011.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 05:18 takeout-20210218T203743Z-012.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 05:25 takeout-20210218T203743Z-013.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 05:40 takeout-20210218T203743Z-014.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 06:19 takeout-20210218T203743Z-015.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 06:18 takeout-20210218T203743Z-016.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:39 takeout-20210218T203743Z-017.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:35 takeout-20210218T203743Z-018.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:35 takeout-20210218T203743Z-019.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:35 takeout-20210218T203743Z-020.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:35 takeout-20210218T203743Z-021.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:34 takeout-20210218T203743Z-022.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:38 takeout-20210218T203743Z-023.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:35 takeout-20210218T203743Z-024.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:35 takeout-20210218T203743Z-025.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 08:35 takeout-20210218T203743Z-026.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 09:14 takeout-20210218T203743Z-027.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 09:16 takeout-20210218T203743Z-028.tgz
-rw-rw-r-- 1 ubuntu ubuntu 51G Feb 19 09:15 takeout-20210218T203743Z-029.tgz
-rw-rw-r-- 1 ubuntu ubuntu 50G Feb 19 09:17 takeout-20210218T203743Z-030.tgz
-rw-rw-r-- 1 ubuntu ubuntu 50G Feb 19 12:00 takeout-20210218T203743Z-031.tgz
-rw-rw-r-- 1 ubuntu ubuntu 50G Feb 19 10:29 takeout-20210218T203743Z-032.tgz
-rw-rw-r-- 1 ubuntu ubuntu 50G Feb 19 09:43 takeout-20210218T203743Z-033.tgz
-rw-rw-r-- 1 ubuntu ubuntu 50G Feb 19 11:16 takeout-20210218T203743Z-034.tgz
-rw-rw-r-- 1 ubuntu ubuntu 11G Feb 19 12:10 takeout-20210218T203743Z-035.tgz
零件编号从 1 到 35,但还有 9 个其他文件带有附加编号。我不知道这里的正确顺序是什么...
然后我尝试使用 tar 提取压缩数据的多级部分。
到目前为止,我尝试了两种方法:
cat ./compressed/takeout-20210218T203743Z-*.tgz | tar xzivf - 2> error.logs 1> output.logstar -xzf compressed/* -C ./
两者都只提取了 1.8 TB 数据而没有任何严重错误(只有三个小文件有未来的时间戳)--> 1.8T ./Takeout/
压缩文件是否可能比提取文件大?似乎我在提取时丢失了大约 400 GB。如何交叉检查多部分压缩存档中的内容并确保完全提取所有数据?
我假设有一些大文件被分成两个不同的部分,并且 tar 无法检测到,因此在提取时跳过它们。
你能帮我解决这个问题吗?
我现在请求另一个 .zip 导出,再次分成 50 GB 块。我会尝试那个,但是下载它需要大约 10 天..
【问题讨论】:
-
不清楚您是如何知道自己有问题的,或者问题是什么。
-
@MarkAdler 我编辑了这个问题。为方便起见复制附加部分:压缩文件是否可能比提取文件大?似乎我在提取时丢失了大约 400 GB。如何交叉检查多部分压缩档案中的内容并确保完全提取所有数据?
标签: compression tar google-photos