Amazon Web Services (AWS) 可以用于大型数据库吗？答案

【问题标题】：Can Amazon Web Services (AWS) be used for huge databases?Amazon Web Services (AWS) 可以用于大型数据库吗？
【发布时间】：2013-01-06 21:54:53
【问题描述】：

我有一个项目需要存储几十个TBs 的数据。起初，将存储少量TBs 的数据。然后，预计数据将以每天5 GB 的速度增长。

基于业务逻辑，我可以将其拆分为 10,000s 的文件/表（每个文件/表将包含大小为 ~ 1 [GB] 的数据）。

（注意：在任何给定时间点，只有10-20 [GB]（比如说，20 个表）被认为是hot data，我会主动查询。）

Amazon Web Services (AWS)可以用来存储和查询如此庞大的数据吗？

如果我想在内部存储这些数据，最好的方法是什么？（例如，很明显我不能在一台机器上拥有所有数据等......）？

【问题讨论】：

您打算使用 Amazon 的 SimpleDB 什么数据库？ SQL 托管在 EC2 上？还有什么？另外，你断言这个数据不能是一台机器的依据是什么？
我打算使用MySQL 或SQLite。如何在一台机器上存储几十个（比如50）TB？
同一个字节可以存储在一台机器上，在硬盘驱动器或磁盘阵列上。
假设磁盘大小约为 2[TB]。您是否建议在一台机器上安装 25-40 个 2[TB] 大小的磁盘？另外，冗余和性能呢？一台机器如何同时处理可能 100 次的读取和写入？
好的，现在您将存储与带宽混淆了。

【解决方案1】：

缺乏关于数据格式、架构等的信息，我会这样处理它：

以某种 Map/Reduce 友好格式将数据存储在 S3 中
在需要时使用 hadoop（或 Elastic Map Reduce）查询整个数据集。典型的模式是使用 M/R 提前获得您需要的所有答案，并将较小的结果存储在其他数据库中。
如果真的需要在 SQL 中拥有 20GB 的“热数据”，我可能会有一些 ETL 用于加载到 Amazon RDS (MySQL)，但如果我可以使用 M/R，我会尽量避免它回答我所有的问题，并拥有一个小型且优化的数据集。

【讨论】：

【解决方案2】：

存储不是问题。亚马逊的云只是另一个位置的计算机（虚拟）。因此，它位于 Amazon 的云中这一事实并没有真正改变性能等式，除非您将大量数据集提取到该云之外的应用程序中。

每天传输 5GB 的数据可能是比较棘手的问题，但似乎可行。

【讨论】：

谢谢。使用Amazon，我真的可以查询这个庞大的数据库（有几十个 TB 大小），并期待良好的性能吗？每天转移5GB 不是问题——因为5GB 将由EC2 实例生成。
亚马逊是一条红鲱鱼。它只是一台远程计算机。您应该询问您打算使用的任何数据库平台。这有点像问戴尔计算机是否可以处理如此庞大的数据库。
JohnFx，谢谢。那么问题可能就变成了——为了支持这样的要求需要什么硬件？正确的方法是什么？当然，我只会使用Linux 系统（最好是Ubuntu）
这是一个非常复杂的问题，需要我更多地了解您的使用场景和服务级别要求。可能不是我们能够在问答论坛中轻松涵盖的内容。
@user3262424 如果你只使用 Linux / Ubuntu，你已经死了。通常，类似的东西要么在大型机上的某个 VMS 变体上的 Db2 上运行，要么使用 Oracle ExaData 设备。

【解决方案3】：

不，我不认为。不适用于大型数据库。

这些是您购买特殊硬件的领域 - 例如 Oracle ExaData（我的上一个数据仓库有 20.000gb，这在他们看来很小）。

问题是：

如果它可以启用 map/recude 或类似的东西 - 是的。 Buta 96 核心 Oracle RAC 安装（在 Exadata 方面很小）不是我想在 Amazon 上尝试的东西。

然后他们没有特殊硬件。就像已经过滤掉不需要的行的 Oracle ExaData RAID 控制器（通过使用它们的存储索引）。

所以，我会说：不。

【讨论】：