【问题标题】:How do you import Big Data public data sets into AWS?如何将大数据公共数据集导入 AWS?
【发布时间】:2012-02-17 23:18:00
【问题描述】:

加载任何亚马逊列出的公共数据集 (http://aws.amazon.com/datasets) 将占用大量资源和带宽。将它们导入 AWS 以便您快速开始使用它们的最佳方法是什么?

【问题讨论】:

    标签: amazon-ec2 amazon-web-services amazon-simpledb amazon-ebs bigdata


    【解决方案1】:

    您需要使用公共数据集的 Snapshot-ID 创建一个新的 EBS 实例。这样您就无需支付转账费用。

    但请注意,某些数据集仅在一个地区可用,很可能用与此类似的注释表示。您应该在同一区域注册您的 EC2 实例。

    这些数据集托管在 us-east-1 区域。如果您从其他地区处理这些数据,您将需要支付数据传输费用。

    【讨论】:

      【解决方案2】:

      仅供参考:SDBExplorer 使用多线程 BatchPutAttributes 来实现高写入吞吐量,同时将批量数据上传到 Amazon SimpleDB。 SDB Explorer 允许多个并行上传。如果您有带宽,您可以通过在并行队列中一次运行多个 BatchPutAttributes 进程来充分利用该带宽,这将减少处理时间。 SDBExplorer 支持将数据从 MySql 和 CSV 导入到 Amazon SimpleDB。

      http://www.sdbexplorer.com

      披露:我是 SDBExplorer 的开发者。

      【讨论】:

        猜你喜欢
        • 2016-08-13
        • 1970-01-01
        • 1970-01-01
        • 2021-01-26
        • 1970-01-01
        • 1970-01-01
        • 2011-06-26
        • 2017-09-19
        • 2011-01-27
        相关资源
        最近更新 更多