【发布时间】:2012-02-17 23:18:00
【问题描述】:
加载任何亚马逊列出的公共数据集 (http://aws.amazon.com/datasets) 将占用大量资源和带宽。将它们导入 AWS 以便您快速开始使用它们的最佳方法是什么?
【问题讨论】:
标签: amazon-ec2 amazon-web-services amazon-simpledb amazon-ebs bigdata
加载任何亚马逊列出的公共数据集 (http://aws.amazon.com/datasets) 将占用大量资源和带宽。将它们导入 AWS 以便您快速开始使用它们的最佳方法是什么?
【问题讨论】:
标签: amazon-ec2 amazon-web-services amazon-simpledb amazon-ebs bigdata
您需要使用公共数据集的 Snapshot-ID 创建一个新的 EBS 实例。这样您就无需支付转账费用。
但请注意,某些数据集仅在一个地区可用,很可能用与此类似的注释表示。您应该在同一区域注册您的 EC2 实例。
这些数据集托管在 us-east-1 区域。如果您从其他地区处理这些数据,您将需要支付数据传输费用。
【讨论】:
仅供参考:SDBExplorer 使用多线程 BatchPutAttributes 来实现高写入吞吐量,同时将批量数据上传到 Amazon SimpleDB。 SDB Explorer 允许多个并行上传。如果您有带宽,您可以通过在并行队列中一次运行多个 BatchPutAttributes 进程来充分利用该带宽,这将减少处理时间。 SDBExplorer 支持将数据从 MySql 和 CSV 导入到 Amazon SimpleDB。
披露:我是 SDBExplorer 的开发者。
【讨论】: