【问题标题】:Cassandra datastore sizeCassandra 数据存储大小
【发布时间】:2011-07-02 20:26:28
【问题描述】:

我正在使用 Cassandra 来存储我解析的站点日志。我有两个具有多个二级索引的列族。日志数据本身的大小约为 30 GB。但是,cassandra 数据目录的大小约为 91g。有什么办法可以缩小这家店的规模吗?此外,拥有多个二级索引是否会对数据存储大小产生重大影响?

【问题讨论】:

    标签: cassandra


    【解决方案1】:

    二级索引可能会产生很大的影响,但显然这取决于您在其中添加的内容!如果您的大部分数据条目出现在一个或多个索引中,那么这些索引可能会占您存储的很大一部分。

    您可以查看每个列族使用 JConsole 和/或“nodetool cfstats”的空间量。

    您还可以查看磁盘数据文件的大小以了解使用情况。

    也可能是数据刷新到磁盘的频率不够高 - 这可能导致大量提交日志文件在磁盘上停留很长时间,从而占用额外的空间。如果您的某些列族仅轻载,则可能会发生这种情况。请参阅http://wiki.apache.org/cassandra/MemtableThresholds 了解调整此参数的参数。

    如果您有大量的小列,那么列名可能会占用很大比例的存储空间,因此在有意义的情况下缩短它们可能是值得的(如果它们是时间戳或其他有意义的数据!)。

    【讨论】:

    • 感谢伟大的提示 DNA!我做了一些分析,发现快照也占用了很多空间。
    • 好点 - 您可以使用 nodetool 在本地和全局删除快照,或者只是手动删除它们。
    猜你喜欢
    • 2021-05-14
    • 2022-12-01
    • 2017-04-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-12-05
    • 2017-01-19
    相关资源
    最近更新 更多