分布式数据存储答案

【问题标题】：Distributed datastore分布式数据存储
【发布时间】：2011-02-17 21:05:11
【问题描述】：

我们正在尝试在我们的应用中添加某种持久性。该应用每秒生成大约 250 个条目。这些条目中的每一个都属于 2M 文件之一。对于每个文件，我们希望保留最后 10 个条目，以便以后查找。

我们的客户端应用程序的工作方式：

我们正在寻找一种有效的方法来存储这些数据，该方法可以水平扩展，因为我们获得的数据量每隔几周就会翻一番。

我们最初关注的是 S3。它工作得很好，但很快就会变得非常昂贵（仅在 PUT 操作中每月就超过 1000 美元！）

然后我们试了一下Riak。但似乎我们不能在每个节点上获得超过 60 次写入/秒，这非常非常慢。

还有其他解决方案吗？

【问题讨论】：

【解决方案1】：

您可以在 Riak 中打开许多旋钮 - 如果您还没有，请询问邮件列表，我们会为您找出一个合理的配置。 60 次写入/秒不在正常范围内。

【讨论】：

我们问过......还没有答案：lists.basho.com/pipermail/riak-users_lists.basho.com/2010-May/… 只是没有人说 60 次写入/秒不是常态这一事实是一个非常糟糕的消息。
对不起那个朱利安，我没有把这些点联系起来。请给我发电子邮件，我们可以拨打电话解决您的问题：sean AT basho.com

【解决方案2】：

Hadoop 的 HDFS 分布在 Amazon EC2 实例上怎么样？我知道每个实例都有很大的存储空间，而且您不必为 put/get 付费，只需为入站传输付费。

【讨论】：

【解决方案3】：

我建议查看 Appistry 的 CloudIQ Storage。它是一个完全分布式的文件存储。它可以通过基于 REST 的 API 访问，并且可以在商品硬件上运行。您可以逐个文件定义保留的副本数。它支持最终一致性模型，因此您可以平衡文件一致性和性能。

【讨论】：