【发布时间】:2011-09-25 00:54:28
【问题描述】:
我对 cassandra 比较陌生,必须为监控工具评估不同的 NoSQL 解决方案。 一个数据只有大约 100 字节大,但实际上有很多。一天之内,我们会收到大约 1500 万条记录…… 所以我目前正在测试 9 亿条记录(大约 15GB 作为 SQL-Insert 脚本)
我的第一个问题是: cassandra 是否符合我的需求?我需要进行范围查询(在创建记录的日期)并根据存储在数据中的“二级索引”定义的组来总结一些列。)
我已经尝试过 MongoDB,但它真的很糟糕 MapReduce 做了一个非常糟糕的工作...... 我还阅读了有关 HBase 的信息,但它需要的大量配置让我希望 Cassandra 可以解决...
第二个问题是:我如何存储我的数据以通过上述方式访问它? 我已经想到了一个超级列族,其中的关键是日期(从 1970 年开始),列将是当时采用的基准……但是如果我使用随机分区器,我就不能进行快速范围查询在它上面(据我所知),如果我使用 Order Preserving Partitioner,数据将不会分布在我的集群中(目前由两个节点组成)。
我希望我给了你所有必要的信息...... 感谢您的帮助!
安迪
【问题讨论】: