【发布时间】:2017-04-07 21:18:55
【问题描述】:
我们的数据仓库位于 Redshift(50TB 大小)中。有时,业务用户会运行大型查询(过多的联接、内联查询 - 由 Tableau 等 BI 工具生成)。大查询会降低数据库性能。
在 Redshift 之上使用 Spark 来卸载 Redshift 之外的一些计算是否明智?
或者通过添加更多节点来提高 Redshift 计算能力是否更容易且更具成本效益?
如果我在 Spark 中执行
select a.col1, b.col2 from table1 a, table2 b where a.key = b.key。表通过 JDBC 连接并驻留在 Redshift 上,实际处理发生在哪里(在 Spark 或 Redshift 中)?
【问题讨论】:
标签: apache-spark amazon-redshift data-warehouse