【问题标题】:how many rows in a column family in Cassandra can effect performance?Cassandra 的列族中有多少行会影响性能?
【发布时间】:2012-06-29 13:57:41
【问题描述】:

我在 apache Cassandra 的大型博客处理项目中工作,但我想知道列族中的行是否太多。这会使我的查询变慢吗?

在我的数据中,我们每天有大约 1000 亿行日志

如果我将它们分成许多列族(如 20120627 之类的日模式)是更好的理想选择???

任何人都可以给我一个关于建模这些数据的建议吗?

我打算只创建这样的列族:

CREATE TABLE data (
  KEY text PRIMARY KEY
) WITH
  comment='log' AND
  comparator=text 

我想处理大块时间戳的数据(前处理:10:20 --> 10:30 数据)

【问题讨论】:

    标签: nosql cassandra data-modeling


    【解决方案1】:

    我认为您不必创建许多列族,但要使用复合键并使用列。

    key可以是(day of the day:timestamp of the log) or (hour of the day:timestamp) or (minute of the day:timestamp)

    然后,为了防止与具有相同时间戳的日志发生冲突,您可以使用超级列。

    您可以获取有关 cassandra 限制的更多信息:http://wiki.apache.org/cassandra/CassandraLimitations

    【讨论】:

    • 感谢您的帮助,我尝试在 Casssandra 中使用复合键,但是当我使用 Hector 插入数据时(键是复合键)总是失败,您能给我任何使用 Hector 插入的示例吗一个列族(具有复合键)。 :( :(
    • 对不起,我不知道这个库。我可以建议你stackoverflow.com/search?q=[hector]+composite+key 或者在这里查看这个库的源代码:github.com/hector-client/hector
    猜你喜欢
    • 2018-03-09
    • 2018-04-20
    • 2018-10-21
    • 2018-07-09
    • 2015-05-17
    • 2015-06-13
    • 1970-01-01
    • 2014-01-02
    • 1970-01-01
    相关资源
    最近更新 更多