【发布时间】:2015-08-24 10:59:15
【问题描述】:
我正在 AWS 基础设施上使用 EMR(弹性 MapReduce),为程序提供输入文件(大型数据集)的默认方式是将它们上传到 S3 存储桶并引用 那些 存储桶在 EMR 中。
通常我将数据集下载到我的本地开发机器,然后将它们上传到 S3,但是对于较大的文件,这变得越来越难,因为上传速度通常远低于下载速度。
我的问题是有没有办法从互联网上下载文件(给定他们的 URL)直接到 S3,所以我不必将它们下载到我的本地机器然后手动上传?
【问题讨论】:
-
请看这里,因为我认为您的问题已得到解答。 stackoverflow.com/questions/19241671/…
标签: hadoop amazon-web-services amazon-s3 emr