【发布时间】:2020-12-12 14:34:53
【问题描述】:
我有 3 个 AWS P 实例处理一些繁重的东西并将结果保存到相关的/home/user/folder
另外,我有一个主服务器,它的文件夹与我想从这 3 个实例中收集结果的文件夹相同
每个实例都在整个任务的自己的部分工作,它们的结果是子文件夹不重叠
每个实例都是 2 TB,所以我想在每个实例出现时立即获得结果
这样当它的工作完成后,我不会花半天时间将结果复制到主服务器
我认为解决这个问题的一种方法是在每个实例上运行类似的东西:
*/30 * * * * rsync /home/user/folder ubuntu@1.1.1.1:/home/user/folder
鉴于所有实例都是 AWS,还有其他更聪明的方法可以实现相同的结果吗?
我还考虑过 (1) 可分离存储和 (2) 存储在 S3 上,但对于 AWS,我可能会忽略此类工作流程中的一些隐藏陷阱,尤其是涉及 TB 级数据和昂贵的实例时。
您如何从远程实例收集处理过的数据?
【问题讨论】:
-
您希望如何与数据交互?你想要文件系统语义吗? S3 并没有真正提供它们,但有其自身的优势(大规模并行访问和范围操作)。如果您“只想要一个共享文件系统”,我过去在 EFS 上运气不错,尽管与 EBS 或 S3 相比它相当昂贵。
-
@DanielFarrell 哦,这很有趣,谢谢,我只需要它符合 POSIX,我将根据新获得的数据重新训练我的模型
标签: amazon-web-services amazon-s3 amazon-ec2 cron rsync