【发布时间】:2014-08-05 23:32:08
【问题描述】:
我在 CouchDB 中存储了 30 GB 的 twitter 数据。我的目标是在 java 中处理每条推文,但 java 程序一次不能保存这么大的数据。为了处理整个数据集,我计划借助 CouchDb 支持的过滤复制将整个数据集划分为更小的数据集。但是,由于我是 couchDB 的新手,所以我在这样做时面临很多问题。欢迎任何更好的想法。谢谢。
【问题讨论】:
我在 CouchDB 中存储了 30 GB 的 twitter 数据。我的目标是在 java 中处理每条推文,但 java 程序一次不能保存这么大的数据。为了处理整个数据集,我计划借助 CouchDb 支持的过滤复制将整个数据集划分为更小的数据集。但是,由于我是 couchDB 的新手,所以我在这样做时面临很多问题。欢迎任何更好的想法。谢谢。
【问题讨论】:
您始终可以在 couchdb 中查询对于您的 java 程序来说足够小的数据集,因此没有理由将子集复制到较小的数据库中。有关从 couchdb 获取分页结果的方法,请参阅 this stackoverflow answer。您甚至可以使用 couchdb 本身来处理 map/reduce,但这取决于您的问题。
【讨论】:
根据查询的复杂性和您在处理数据集时所做的更改,您应该可以使用一个实例。
作为之前的海报你可以使用分页结果,我倾向于做一些不同的事情:
【讨论】: