BigQuery 与 Amazon Redshift 的优缺点 [关闭]答案

【问题标题】：Pros & cons of BigQuery vs. Amazon Redshift [closed]BigQuery 与 Amazon Redshift 的优缺点 [关闭]
【发布时间】：2014-12-08 01:16:42
【问题描述】：

比较 Google BigQuery 与 Amazon Redshift 表明，两者都可以满足相同的要求，主要是成本计划不同。与可能存在连接表问题的 Google BigQuery 相比，Redshift 的配置（定义键和优化工作）似乎更复杂。

是否有 Google BigQuery 与 Amazon Redshift 的优缺点列表？

【问题讨论】：

试试quora，你的问题更适合那里...
看看quora.com/…
当然我看过那里，我想我可以从纯粹的开发和集成的角度获得另一个视角。还是谢谢。
一些成本分析googlecloudplatform.blogspot.com/2015/07/…

标签： google-bigquery amazon-redshift

【解决方案1】：

我在 reddit 上发布了这个比较。一位长期的 RedShift 实践者很快就对我的陈述发表了评论。完整对话请见https://www.reddit.com/r/bigdata/comments/3jnam1/whats_your_preference_for_running_jobs_in_the_aws/cur518e。

调整集群规模：

Redshift 会要求您选择多个 CPU、RAM、HD 等并打开它们。
BigQuery 不在乎。随时使用，无需配置。

什么都不做时的每小时成本：

Redshift 会要求您按每小时运行的每台服务器付费，即使您什么都不做。
闲置时，BigQuery 每月存储的每 GB 费用仅为 0.02 美元。每月每 GB 2 美分，仅此而已。

查询速度：

Redshift 性能受您购买的 CPU 数量的限制
BigQuery 以透明的方式引入所需的资源，以便在几秒钟内运行您的查询。

索引：

Redshift 会要求您根据特定条件索引（更正：分发）您的数据，并且您将只能基于此索引运行快速查询。
BigQuery 没有索引。每个操作都很快。

抽真空：

Redshift 需要持续数小时的定期维护和“真空”操作。您需要为每个服务器小时付费。
BigQuery 没有。忘掉“吸尘”吧。

数据分区和分发：

Redshift 要求您考虑如何在服务器内分配数据以保持性能 - 优化仅适用于某些查询。
BigQuery 没有。只需运行您想要的任何查询。

流式传输实时数据：

Redshift 不可能（？）。
BigQuery 可以轻松处理每张表每秒最多提取 100,000 行。

发展你的集群：

如果您有更多的数据，或者更多的并发用户使用 Redshift 进行扩展会很痛苦。
BigQuery 可以正常工作。

多区：

您想要一个多区域 Redshift 以确保可用性和数据完整性？很痛苦。
BigQuery 默认是多区域的。

要试用 BigQuery，您不需要信用卡或任何设置时间。试试看 (quick instructions to try BigQuery)。

当您准备好将自己的数据放入 BigQuery 时，只需将 JSON 换行符分隔的日志从 Google Cloud Storage 复制并导入即可。

请参阅此云上数据仓库定价的深入指南： Understanding Cloud Pricing Part 3.2 - More Data Warehouses

【讨论】：

“要试用 BigQuery，您不需要信用卡”似乎不再正确 - 我必须添加信用卡详细信息才能设置免费试用。还是还有办法？
试试cloud.google.com/blog/big-data/2017/01/…

【解决方案2】：

Amazon Redshift 是一个标准 SQL 数据库（基于 Postgres），具有允许其扩展的 MPP 功能。这些功能还要求您在一定程度上符合您的数据模型以获得最佳性能。它支持大量的 SQL 标准，大多数可以与 Postgres 对话的工具都可以原封不动地使用它。

BigQuery 不是数据库，in the sense that there it doesn't use standard SQL and doesn't provide JDBC/ODBC connectivity。这是一项具有自己的 API 和接口的独特服务。它为 SQL 查询提供有限的支持，但大多数用户通过自定义代码（Java、Python 等）进行交互。一些第 3 方工具添加了对 BigQuery 的支持，但现有工具如果不进行修改将无法运行。

tl;dr - Redshift 更适合与现有工具交互和使用复杂的 SQL。 BigQuery 更适合自定义编码交互和不喜欢 SQL 的团队。

2017-04-17 更新 - 这是成本和速度差异的最新摘要（包含在销售宣传中，因此 YMMV）。 TL;DR - 如果您定期查询数据，Redshift 通常会更快并且更便宜。 http://blog.panoply.io/a-full-comparison-of-redshift-and-bigquery

更新 - 由于我一直对此（?‍♂️）投反对票，因此这里是对另一个答案中项目的最新回复：