【问题标题】:Bulk download of web images批量下载网络图像
【发布时间】:2014-12-25 21:35:42
【问题描述】:

我有大约 600k 个图片 url(在一个列表中),我想实现以下目标:

  • 全部下载
  • 生成特定尺寸的缩略图
  • 将它们上传到 Amazon s3

我估计我的图像平均约为 1mb,这将是大约 600gb 的下载数据传输。我不相信我的笔记本电脑和我的互联网连接可以承受它。

我应该走哪条路?我希望最好有一个将成本降至最低的解决方案。

我正在考虑一个 Python 脚本或一个 JavaScript 作业,如果可能的话,并行运行以尽量减少所需的时间

谢谢!

【问题讨论】:

    标签: javascript python amazon-s3


    【解决方案1】:

    我建议启动一个或多个 EC2 实例并在那里运行您的缩略图作业。您将消除几乎所有的带宽成本(从正确区域中的 ec2 实例到 s3 免费),而且在 AWS 网络中传输速度肯定会更快。

    对于要处理的 600K 文件,您可能需要考虑将这些“作业”中的每一个加载到 SQS 队列中,然后让多个 EC2 实例轮询队列中的“待办事项” - 这将允许您启动您希望并行运行许多 ec2 实例并分配工作。

    但是,设置队列的工作可能值得也可能不值得,具体取决于您需要执行此操作的频率以及需要多快完成 - 即,如果这是一次性的事情,您可以等待一周完成,单个实例插入就足够了。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-02
      • 1970-01-01
      • 2011-05-07
      • 1970-01-01
      相关资源
      最近更新 更多