【问题标题】:CouchDB data replicationCouchDB 数据复制
【发布时间】:2014-08-05 23:32:08
【问题描述】:

我在 CouchDB 中存储了 30 GB 的 twitter 数据。我的目标是在 java 中处理每条推文,但 java 程序一次不能保存这么大的数据。为了处理整个数据集,我计划借助 CouchDb 支持的过滤复制将整个数据集划分为更小的数据集。但是,由于我是 couchDB 的新手,所以我在这样做时面临很多问题。欢迎任何更好的想法。谢谢。

【问题讨论】:

    标签: java twitter couchdb


    【解决方案1】:

    您始终可以在 couchdb 中查询对于您的 java 程序来说足够小的数据集,因此没有理由将子集复制到较小的数据库中。有关从 couchdb 获取分页结果的方法,请参阅 this stackoverflow answer。您甚至可以使用 couchdb 本身来处理 map/reduce,但这取决于您的问题。

    【讨论】:

      【解决方案2】:

      根据查询的复杂性和您在处理数据集时所做的更改,您应该可以使用一个实例。

      作为之前的海报你可以使用分页结果,我倾向于做一些不同的事情:

      • 我有一份社交喜欢的文件。后者总是指一个 URL,我想尝试每 2-3 小时更新一次。
      • 我有一个视图,该视图按文档按上次更新请求和上次更新的时间对 URL 进行排序。
      • 我查询此视图,以便排除在 30 分钟内收到请求或在 2 小时内更新的文章。
      • 我在排队作业时使用 rabbit MQ,如果这些作业在 30 分钟内没有被提取,它们就会过期。

      【讨论】:

        猜你喜欢
        • 2019-07-13
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-09-16
        • 1970-01-01
        • 1970-01-01
        • 2019-01-12
        • 2011-10-28
        相关资源
        最近更新 更多