【问题标题】:Data import speeds from Amazon S3 in to Redshift / Redshift solution从 Amazon S3 到 Redshift / Redshift 解决方案的数据导入速度
【发布时间】:2014-05-21 17:39:22
【问题描述】:

有谁知道从 Amazon S3 到 Redshift 的复制速度有多快?

我只想每天使用大约一个小时的 RedShift 来更新 Tabelau 报告。正在运行的查询始终在同一个数据库中,但我需要每晚运行它们以考虑当天的新数据。

我不想让集群 24x7 每天运行一小时,但我能看到的唯一方法是每晚将整个数据库导入 Redshift(我不认为您不能暂停或暂停集群)。我不知道复制速度是多少,所以我不知道每晚将 10GB 文件复制到 Redshift 是否会相对较快。

假设可行,我的想法是将 SQL Server dbase 上的增量更改推送到 S3。使用 Cloud Formation,我在凌晨 1 点自动配置 Redshift 集群 1 小时,从 S3 导入 dbase,并安排 Tableau 在此期间运行查询并获得结果。我密切关注查询需要多长时间,如果需要超过一个小时,我只需修改云的形成。

通过这种方式,我希望通过将所有 ETL 外包给 Redshift,并且只购买我在 Redshift 上使用的东西,从而保持一个真正“精简”的 Tableau 服务器。

请随时批评我的解决方案,或者直接将其从水中吹出来。否则,如果答案的共识是导入速度相对较快,那么我会竖起大拇指,我正朝着这个解决方案的正确方向前进。

感谢您的帮助!

【问题讨论】:

    标签: amazon-web-services amazon-s3 amazon-redshift


    【解决方案1】:

    从 S3 加载 Redshift 非常快,但是 Redshift 集群根本不会很快启动/拆除。在上面的示例中,您的大部分时间(和金钱)将花在等待集群启动、加载现有数据、卸载刷新数据以及再次拆除集群。

    在我看来,最好使用另一种方法进行夜间处理。我会建议:

    • 对于几个 TB,大型 EC2 实例上的 InfiniDB,数据库存储在 EBS 卷上。
    • 对于许多 TB,Amazon EMR 将数据存储在 S3 上。如果你不想过多地进入 Hadoop,你可以使用 Xplenty/Syncsort Ironcluster/etc。编排 Hadoop 元素。

    【讨论】:

    • 同意,您可以将数据存储到 EBS,并为它关闭数据库和 EC2 实例,并在您需要批量加载新数据并运行报告时启动它。我是 InfiniDB 的架构师,请随时给我发消息,我很乐意帮助您使用 InfiniDB 来做到这一点。我们有集群,我们离线并根据需要在内部启动以进行测试和性能运行,所以类似的用例。即使您增长到数十 TB,也就是我们的空间,也有很多在 HDFS 上或之外的负载上运行。我们是开源 GPLv2,所以可以免费试用 :)
    • @mhoglan 我有一些 InfiniDB 问题,并看到了你的这篇文章。我怎样才能联系到您?
    【解决方案2】:

    虽然这个问题是三年前写的,当时还没有,但现在一个合适的解决方案是使用 Amazon Athena,它允许对 S3 中保存的数据进行按需 SQL 查询。这适用于按查询付费的模型,适用于像这样的临时和“快速”工作负载。

    在幕后,Athena 使用 Presto 和 Elastic MapReduce,但开发人员/分析师在实践中唯一需要的知识是 SQL。

    Tableau 现在还有一个内置的 Athena 连接器(从 10.3 开始)。

    更多关于雅典娜的信息:https://aws.amazon.com/athena/

    【讨论】:

      【解决方案3】:

      您可以对保存在 S3 上的数据进行预分类。这将使真空速度更快。

      【讨论】:

        【解决方案4】:

        这是 Redshift 的经典问题......这里有趣的概念是... 熟悉的 SQL Server 查询语言和工具集(包括存储过程支持)。他们还将存储和计算解耦,因此您可以拥有 1 GB 的存储空间,但可以使用 10 个计算节点进行密集查询,反之亦然....离线。云数据仓库大战火了:)

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2018-04-25
          • 2018-09-12
          • 1970-01-01
          • 2016-07-29
          • 2016-09-25
          • 1970-01-01
          • 1970-01-01
          • 2021-08-16
          相关资源
          最近更新 更多