【问题标题】:Can Amazon Web Services (AWS) be used for huge databases?Amazon Web Services (AWS) 可以用于大型数据库吗?
【发布时间】:2013-01-06 21:54:53
【问题描述】:

我有一个项目需要存储几十个TBs 的数据。起初,将存储少量TBs 的数据。然后,预计数据将以每天5 GB 的速度增长。

基于业务逻辑,我可以将其拆分为 10,000s 的文件/表(每个文件/表将包含大小为 ~ 1 [GB] 的数据)。

注意:在任何给定时间点,只有10-20 [GB](比如说,20 个表)被认为是hot data,我会主动查询。)

Amazon Web Services (AWS)可以用来存储和查询如此庞大的数据吗?

如果我想在内部存储这些数据,最好的方法是什么? (例如,很明显我不能在一台机器上拥有所有数据等......)?

【问题讨论】:

  • 您打算使用 Amazon 的 SimpleDB 什么数据库? SQL 托管在 EC2 上?还有什么?另外,你断言这个数据不能是一台机器的依据是什么?
  • 我打算使用MySQLSQLite。如何在一台机器上存储几十个(比如50)TB?
  • 同一个字节可以存储在一台机器上,在硬盘驱动器或磁盘阵列上。
  • 假设磁盘大小约为 2[TB]。您是否建议在一台机器上安装 25-40 个 2[TB] 大小的磁盘?另外,冗余和性能呢?一台机器如何同时处理可能 100 次的读取和写入?
  • 好的,现在您将存储与带宽混淆了。

标签: database amazon-web-services


【解决方案1】:

缺乏关于数据格式、架构等的信息,我会这样处理它:

  • 以某种 Map/Reduce 友好格式将数据存储在 S3 中
  • 在需要时使用 hadoop(或 Elastic Map Reduce)查询整个数据集。典型的模式是使用 M/R 提前获得您需要的所有答案,并将较小的结果存储在其他数据库中。
  • 如果真的需要在 SQL 中拥有 20GB 的“热数据”,我可能会有一些 ETL 用于加载到 Amazon RDS (MySQL),但如果我可以使用 M/R,我会尽量避免它回答我所有的问题,并拥有一个小型且优化的数据集。

【讨论】:

    【解决方案2】:

    存储不是问题。亚马逊的云只是另一个位置的计算机(虚拟)。因此,它位于 Amazon 的云中这一事实并没有真正改变性能等式,除非您将大量数据集提取到该云之外的应用程序中。

    每天传输 5GB 的数据可能是比较棘手的问题,但似乎可行。

    【讨论】:

    • 谢谢。使用Amazon,我真的可以查询这个庞大的数据库(有几十个 TB 大小),并期待良好的性能吗?每天转移5GB 不是问题——因为5GB 将由EC2 实例生成。
    • 亚马逊是一条红鲱鱼。它只是一台远程计算机。您应该询问您打算使用的任何数据库平台。这有点像问戴尔计算机是否可以处理如此庞大的数据库。
    • JohnFx,谢谢。那么问题可能就变成了——为了支持这样的要求需要什么硬件?正确的方法是什么?当然,我只会使用Linux 系统(最好是Ubuntu
    • 这是一个非常复杂的问题,需要我更多地了解您的使用场景和服务级别要求。可能不是我们能够在问答论坛中轻松涵盖的内容。
    • @user3262424 如果你只使用 Linux / Ubuntu,你已经死了。通常,类似的东西要么在大型机上的某个 VMS 变体上的 Db2 上运行,要么使用 Oracle ExaData 设备。
    【解决方案3】:

    不,我不认为。不适用于大型数据库。

    这些是您购买特殊硬件的领域 - 例如 Oracle ExaData(我的上一个数据仓库有 20.000gb,这在他们看来很小)。

    问题是:

    • 备份。是的,亚马逊有时会丢失数据 - 确实发生了。
    • 正在加载大量数据。
    • 资源。您可能需要比他们最好的虚拟机更多的东西。如果您不控制硬件,那么调整会很痛苦。
    • 成本。真的。亚马逊 24/7 的任何东西都很贵。

    如果它可以启用 map/recude 或类似的东西 - 是的。 Buta 96 核心 Oracle RAC 安装(在 Exadata 方面很小)不是我想在 Amazon 上尝试的东西。

    然后他们没有特殊硬件。就像已经过滤掉不需要的行的 Oracle ExaData RAID 控制器(通过使用它们的存储索引)。

    所以,我会说:不。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-12-03
      • 2012-05-22
      • 2019-04-15
      • 1970-01-01
      • 2016-03-01
      相关资源
      最近更新 更多