【发布时间】:2011-07-02 20:26:28
【问题描述】:
我正在使用 Cassandra 来存储我解析的站点日志。我有两个具有多个二级索引的列族。日志数据本身的大小约为 30 GB。但是,cassandra 数据目录的大小约为 91g。有什么办法可以缩小这家店的规模吗?此外,拥有多个二级索引是否会对数据存储大小产生重大影响?
【问题讨论】:
标签: cassandra
我正在使用 Cassandra 来存储我解析的站点日志。我有两个具有多个二级索引的列族。日志数据本身的大小约为 30 GB。但是,cassandra 数据目录的大小约为 91g。有什么办法可以缩小这家店的规模吗?此外,拥有多个二级索引是否会对数据存储大小产生重大影响?
【问题讨论】:
标签: cassandra
二级索引可能会产生很大的影响,但显然这取决于您在其中添加的内容!如果您的大部分数据条目出现在一个或多个索引中,那么这些索引可能会占您存储的很大一部分。
您可以查看每个列族使用 JConsole 和/或“nodetool cfstats”的空间量。
您还可以查看磁盘数据文件的大小以了解使用情况。
也可能是数据刷新到磁盘的频率不够高 - 这可能导致大量提交日志文件在磁盘上停留很长时间,从而占用额外的空间。如果您的某些列族仅轻载,则可能会发生这种情况。请参阅http://wiki.apache.org/cassandra/MemtableThresholds 了解调整此参数的参数。
如果您有大量的小列,那么列名可能会占用很大比例的存储空间,因此在有意义的情况下缩短它们可能是值得的(如果它们是时间戳或其他有意义的数据!)。
【讨论】: