【问题标题】:Database for Reporting / analytics on 1TB data with a simple model使用简单模型对 1TB 数据进行报告/分析的数据库
【发布时间】:2012-04-22 19:44:15
【问题描述】:

大数据 = 1TB,每年增长 10%。 模型很简单。一张有 25 列的表。 没有与其他表的连接..

我希望对 25 列的子集进行简单的查询过滤..

我猜想在过滤列上有索引的传统 SQL 存储是必要的。 Hadoop 是矫枉过正,没有意义,因为这是一个实时服务。蒙哥?像 pentaho 这样的双引擎?

有什么建议吗?

【问题讨论】:

  • 任何商业数据仓库解决方案都可以,例如查看 DB2 产品
  • 那你到底是为了什么?效果好吗?
  • 我最终使用了elasticsearch.org太棒了!

标签: postgresql hadoop nosql analytics business-intelligence


【解决方案1】:

似乎传统解决方案确实听起来不错,除非您描述的非常简单的模型不会有任何重大变化。

NoSQL 听起来不是 BI/报告的最佳选择。

获得好的硬件。花时间进行性能测试并构建所有必需的索引。实施适当的新数据上传策略。根据您的需要和性能测试,在 PostgreSQL 中实现表级partitioning

附:如果我现在有机会从 ORACLE/DB2 切换,我肯定会选择 PostgreSQL。

【讨论】:

    【解决方案2】:

    我建议在这里调查 Infobright - 它是基于列和压缩的,所以你不会存储完整的 TB,有一个开源版本,所以你可以在不被一群销售人员打电话的情况下试用它(但是上次我查看 OSS 版本时缺少一些非常有用的东西,所以你最终可能想要一个许可证)。上次我试了一下,它看起来像 MySQL 一样,所以不难集成。当我上次检查它时,它是面向单服务器的,并声称可以在单台服务器上处理高达 50TB 的容量。我认为如果你决定朝那个方向前进,Infobright 可以坐在 Pentaho 后面。

    infobright 所做的事情是它非常接近无管理员 - 没有手动索引或索引维护。

    【讨论】:

      【解决方案3】:

      听起来像列存储会有所帮助。取决于您如何处理插入,以及是否必须进行更新。但是,如果您要进行商业化,除了 infobright 之外,然后按矢量方式结帐,它更快且价格相似。

      如果您想要免费/开源,请查看 Luciddb - 文档不多,但它非常擅长它的功能!

      如果您想要令人难以置信的速度,请查看矢量。我相信它的价格与 infobright 差不多,但速度要快得多。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2023-03-22
        • 2021-07-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多