【发布时间】:2013-11-07 03:29:37
【问题描述】:
我目前正在为 SaaS 近实时分析应用程序测试 Redshift。 查询性能在 100M 行数据集上很好。
但是,当更多用户同时使用该应用程序时,每个集群 15 个查询的并发限制将成为一个问题。
我无法缓存所有聚合结果,因为我们授权自定义每个查询的过滤器(即席查询)
申请的要求是:
- 查询必须在 10 秒内返回结果
- 具有超过 100 列的过滤器的即席查询
- 在应用程序上同时连接 1 到 50 个客户端
- 数据集以 1000 万行/天的速度增长
- 典型的查询是带有聚合函数 COUNT 的 SELECT、带有 1 或 2 个连接的 AVG
Redshift 不适合这个用例吗?对于这些要求,您还会考虑哪些其他技术?
【问题讨论】:
-
您确定允许直接查询数据是正确的做法吗?难道不能创建一些专门的事实表或汇总表以使某些查询运行得更快吗?
标签: amazon-redshift