CouchDB 数据复制答案

【问题标题】：CouchDB data replicationCouchDB 数据复制
【发布时间】：2014-08-05 23:32:08
【问题描述】：

我在 CouchDB 中存储了 30 GB 的 twitter 数据。我的目标是在 java 中处理每条推文，但 java 程序一次不能保存这么大的数据。为了处理整个数据集，我计划借助 CouchDb 支持的过滤复制将整个数据集划分为更小的数据集。但是，由于我是 couchDB 的新手，所以我在这样做时面临很多问题。欢迎任何更好的想法。谢谢。

【问题讨论】：

标签： java twitter couchdb

【解决方案1】：

您始终可以在 couchdb 中查询对于您的 java 程序来说足够小的数据集，因此没有理由将子集复制到较小的数据库中。有关从 couchdb 获取分页结果的方法，请参阅 this stackoverflow answer。您甚至可以使用 couchdb 本身来处理 map/reduce，但这取决于您的问题。

【讨论】：

【解决方案2】：

根据查询的复杂性和您在处理数据集时所做的更改，您应该可以使用一个实例。

作为之前的海报你可以使用分页结果，我倾向于做一些不同的事情：

我有一份社交喜欢的文件。后者总是指一个 URL，我想尝试每 2-3 小时更新一次。
我有一个视图，该视图按文档按上次更新请求和上次更新的时间对 URL 进行排序。
我查询此视图，以便排除在 30 分钟内收到请求或在 2 小时内更新的文章。
我在排队作业时使用 rabbit MQ，如果这些作业在 30 分钟内没有被提取，它们就会过期。

【讨论】：