【发布时间】:2017-12-30 08:54:49
【问题描述】:
我需要每天将大量数据从谷歌存储导出到 s3(几百 GB)。由于 gsutil rsync 似乎是唯一的方法,我想加快速度。
从 gs 到 s3 的同步速度太慢了,因为文档本身说“因为跨提供商 gsutil 数据传输流过运行 gsutil 的机器......”。 因此,它从触发 rsync 命令的机器下载和上传数据。 如果有人做过类似的事情,请告诉我。
“rsync -m”也无济于事。
更好的机器会改善结果吗? 我们可以使用多台机器并行运行 rsync 以加快速度吗?
谢谢!
【问题讨论】:
-
您说“导出大块”,但随后您还谈到了使用 rsync... 这似乎是在两个不是文件系统的事物之间同步的一种非常低效的方式。传输工作的真正性质是什么?为什么要每天传输大块? (假设您知道 GC 和 AWS 网络都不允许您免费导出数据……)
-
你说的完全正确。只是在 GS 中有一个实体 E1,我们必须从中提取数据(有很多这样的源实体,而不仅仅是 GS)。处理端实体 P1..Pn 是位于 EC2 上的 EMR - 一切 AWS,所以共同点是 s3 中用于处理端的数据。编写 Spark 作业可能会有所帮助,但它本质上必须做类似的事情,即跨云移动数据
标签: amazon-s3 google-cloud-storage rsync gsutil