cassandra数据复制理解答案

【问题标题】：cassandra data replication understandingcassandra数据复制理解
【发布时间】：2015-04-05 02:39:30
【问题描述】：

我在 Azure 上使用 Cassandra 集群。我花了超过 1 周的时间来完成设置并开始工作。它现在可以工作，但我认为我误解了 Cassandra 的 1 个概念，即数据是如何存储的？

我的印象是，每当我上传数据时，所有机器上都可以使用相同的数据，即如果我上传 10 MB 文件和 4 个节点（2 个种子），所有 4 个节点都会消耗 10MB。我想我错了。

因为我刚刚创建了 4 个节点并上传了大约 (2 + 5 + 20 + 20 = 47 MB) 的数据 (blob)，但是当我检查状态时，我看到如下

--  Address   Load       Tokens  Owns (effective)  Host ID                               Rack
UN  10.1.2.5  28.32 MB   256     47.5%             xxxxxxxx-eb9a-46fb-8213-c7487074d9a8  rc1
UN  10.1.2.4  27.14 MB      256     51.3%             xxxxxxxx-11ed-41c6-be8b-a912e54b1ccf  rc1
UN  10.1.2.7  25.09 MB   256     50.1%             xxxxxxxx-9e73-410a-b1bf-5bfd15138625  rc2
UN  10.1.2.6  23.32 MB   256     51.2%             xxxxxxxx-d132-49b6-8eda-4459391d12e4  rc2

顺便说一句，表的复制因子是“2”。负载每隔几分钟就会略有变化。但我可以按预期下载数据！

抱歉，我的懒惰和不公平，我已经在谷歌上搜索了一周的设置，如果你能帮助我理解这一点，或者至少指出我正确的链接，我将不胜感激。

谢谢，尼纳德

【问题讨论】：

标签： azure cassandra replication

【解决方案1】：

这看起来像是预期的结果。根据您的复制因子，您的每条数据都会复制 2 次。因此，大约 47 Mb 乘以 2 分布在 4 个节点上，每个节点大约有 25 mb。

【讨论】：