【问题标题】:Distributed datastore分布式数据存储
【发布时间】:2011-02-17 21:05:11
【问题描述】:

我们正在尝试在我们的应用中添加某种持久性。 该应用每秒生成大约 250 个条目。这些条目中的每一个都属于 2M 文件之一。对于每个文件,我们希望保留最后 10 个条目,以便以后查找。

我们的客户端应用程序的工作方式:

  • 它获取所有数据的流
  • 它获取正确的文件 (GET)
  • 它添加了新内容
  • 它将文件保存回来 (PUT)

我们正在寻找一种有效的方法来存储这些数据,该方法可以水平扩展,因为我们获得的数据量每隔几周就会翻一番。

我们最初关注的是 S3。它工作得很好,但很快就会变得非常昂贵(仅在 PUT 操作中每月就超过 1000 美元!)

然后我们试了一下Riak。但似乎我们不能在每个节点上获得超过 60 次写入/秒,这非常非常慢。

还有其他解决方案吗?

【问题讨论】:

  • 60 写入/秒,使用 riak?你是怎么得到这个号码的?这很有趣,因为我也在评估 riak。

标签: amazon-s3 store cluster-computing riak


【解决方案1】:

您可以在 Riak 中打开许多旋钮 - 如果您还没有,请询​​问邮件列表,我们会为您找出一个合理的配置。 60 次写入/秒不在正常范围内。

见:http://lists.basho.com/mailman/listinfo/riak-users_lists.basho.com

【讨论】:

  • 我们问过......还没有答案:lists.basho.com/pipermail/riak-users_lists.basho.com/2010-May/… 只是没有人说 60 次写入/秒不是常态这一事实是一个非常糟糕的消息。
  • 对不起那个朱利安,我没有把这些点联系起来。请给我发电子邮件,我们可以拨打电话解决您的问题:sean AT basho.com
【解决方案2】:

Hadoop 的 HDFS 分布在 Amazon EC2 实例上怎么样?我知道每个实例都有很大的存储空间,而且您不必为 put/get 付费,只需为入站传输付费。

【讨论】:

  • 我们没有使用亚马逊...所以是的,我们必须为 EC2 的带宽付费。但也许这是一个选择。您是否已经设置了 HDFS 集群?
  • 是的,我有。我设置了一个集群以在大约 50 台小型 EC2 机器上运行(大约 7.5TB 的存储空间)
  • 按这个速度,S3 很划算 :) 50 个小型 EC2 每月已经 3500 个,甚至不考虑带宽! :(
  • 嗯,您也可以在自己的机器上运行 Hadoop。我认为您选择的任何系统都会有些昂贵(您必须通过/租用自己的服务器,或者您为带宽付费)
【解决方案3】:

我建议查看 Appistry 的 CloudIQ Storage。它是一个完全分布式的文件存储。它可以通过基于 REST 的 API 访问,并且可以在商品硬件上运行。您可以逐个文件定义保留的副本数。它支持最终一致性模型,因此您可以平衡文件一致性和性能。

【讨论】:

    猜你喜欢
    • 2015-02-09
    • 1970-01-01
    • 2014-12-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-07-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多