【问题标题】:Cassandra for storing of DocumentsCassandra 用于存储文档
【发布时间】:2011-09-22 22:11:47
【问题描述】:

我目前正在运行一个项目,我们需要每年为大约 2 亿个帐户存储 400 亿份文档(PDF、TIFF),我想知道是否可以使用 Cassandra 来实现这一点?这主要是因为 Cassandra 设计中的可扩展性、稳定性和多数据中心使用。

但我想知道使用 Cassandra 是否是一个好主意 - 或者像 CouchDB 这样的替代方案会是更好的选择吗?

请注意,我们不需要在文档中进行全文搜索,并且对于每个文档,每个文档只会附加有限的元数据 - 例如日期、时间、来源、所有者和唯一 ID,以及一些关键字.对文档的访问通常通过对所有者 ID 的查询来完成,并从那里通过来源和可选的日期/时间选择所需的文档。所以没什么特别的。

感谢您对此的看法。

【问题讨论】:

    标签: storage document cassandra


    【解决方案1】:

    只是一些想法:

    您可能还需要考虑分布式文件系统,例如 HDFS。

    每年 400 亿次是每秒 1361 次 - Cassandra 可以处理这种写入负载,假设文档大小适中,而不是所有巨大的数兆字节文件。

    您预期什么样的读取负载?

    这些文件是否会被永久保存,即每年无限期地增加 400 亿个文件?

    如果一个文档是 100KB(比方说),那我认为是每年 4 PB?我还没有听说过这么大的 Cassandra 集群 - 值得在 Cassandra mailing list 上提问(用一些真实的数字而不是我的猜测!)。

    我听说 Cassandra 节点通常可以在重负载下管理 1TB,在轻负载下可能管理 10TB。所以第一年至少有一个 400 个节点的集群,可能更多,尤其是如果你想要复制的话。

    This page 给出了 2009 年 HDFS 功能的一些数据 - 14 PB(6000 万个文件)使用 4000 个节点,以及许多其他有趣的细节(例如,名称节点需要 60GB 的 RAM)。

    【讨论】:

      猜你喜欢
      • 2016-03-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-09-28
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多