使用简单模型对 1TB 数据进行报告/分析的数据库答案

【问题标题】：Database for Reporting / analytics on 1TB data with a simple model使用简单模型对 1TB 数据进行报告/分析的数据库
【发布时间】：2012-04-22 19:44:15
【问题描述】：

大数据 = 1TB，每年增长 10%。模型很简单。一张有 25 列的表。没有与其他表的连接..

我希望对 25 列的子集进行简单的查询过滤..

我猜想在过滤列上有索引的传统 SQL 存储是必要的。 Hadoop 是矫枉过正，没有意义，因为这是一个实时服务。蒙哥？像 pentaho 这样的双引擎？

有什么建议吗？

【问题讨论】：

任何商业数据仓库解决方案都可以，例如查看 DB2 产品
那你到底是为了什么？效果好吗？
我最终使用了elasticsearch.org太棒了！

标签： postgresql hadoop nosql analytics business-intelligence

【解决方案1】：

似乎传统解决方案确实听起来不错，除非您描述的非常简单的模型不会有任何重大变化。

NoSQL 听起来不是 BI/报告的最佳选择。

获得好的硬件。花时间进行性能测试并构建所有必需的索引。实施适当的新数据上传策略。根据您的需要和性能测试，在 PostgreSQL 中实现表级partitioning。

附：如果我现在有机会从 ORACLE/DB2 切换，我肯定会选择 PostgreSQL。

【讨论】：

【解决方案2】：

我建议在这里调查 Infobright - 它是基于列和压缩的，所以你不会存储完整的 TB，有一个开源版本，所以你可以在不被一群销售人员打电话的情况下试用它（但是上次我查看 OSS 版本时缺少一些非常有用的东西，所以你最终可能想要一个许可证）。上次我试了一下，它看起来像 MySQL 一样，所以不难集成。当我上次检查它时，它是面向单服务器的，并声称可以在单台服务器上处理高达 50TB 的容量。我认为如果你决定朝那个方向前进，Infobright 可以坐在 Pentaho 后面。

infobright 所做的事情是它非常接近无管理员 - 没有手动索引或索引维护。

【讨论】：

【解决方案3】：

听起来像列存储会有所帮助。取决于您如何处理插入，以及是否必须进行更新。但是，如果您要进行商业化，除了 infobright 之外，然后按矢量方式结帐，它更快且价格相似。

如果您想要免费/开源，请查看 Luciddb - 文档不多，但它非常擅长它的功能！

如果您想要令人难以置信的速度，请查看矢量。我相信它的价格与 infobright 差不多，但速度要快得多。

【讨论】：