【发布时间】:2012-04-17 10:34:34
【问题描述】:
我有一个文档结构{'text': 'here is text', 'count' : 13, 'somefield': value}
集合有数千条记录,text 键值可能会重复很多次,我想找到具有最高计数值的不同文本,以及应该返回整个文档,我可以按降序对它们进行排序顺序。
distinct 在列表中返回唯一值。
我想使用所有三个函数并且必须返回文档,我还在学习中,没有涉及到mapreduce。
【问题讨论】:
我有一个文档结构{'text': 'here is text', 'count' : 13, 'somefield': value}
集合有数千条记录,text 键值可能会重复很多次,我想找到具有最高计数值的不同文本,以及应该返回整个文档,我可以按降序对它们进行排序顺序。
distinct 在列表中返回唯一值。
我想使用所有三个函数并且必须返回文档,我还在学习中,没有涉及到mapreduce。
【问题讨论】:
您能否明确说明您想做什么?您要返回具有最高“计数”值的唯一“文本”值的文档吗?
例如,给定集合:
> db.text.find({}, {_id:0})
{ "text" : "here is text", "count" : 13, "somefield" : "value" }
{ "text" : "here is text", "count" : 12, "somefield" : "value" }
{ "text" : "here is text", "count" : 10, "somefield" : "value" }
{ "text" : "other text", "count" : 4, "somefield" : "value" }
{ "text" : "other text", "count" : 3, "somefield" : "value" }
{ "text" : "other text", "count" : 2, "somefield" : "value" }
>
(I have omitted _id values for brevity)
是否只返回包含具有最高“计数”值的唯一文本的文档?
{ "text" : "here is text", "count" : 13, "somefield" : "value" }
和
{ "text" : "other text", "count" : 4, "somefield" : "value" }
一种方法是使用新聚合框架中的 $group 和 $max 函数。 $group 上的文档可以在这里找到: http://docs.mongodb.org/manual/aggregation/
> db.text.aggregate({$group : {_id:"$text", "maxCount":{$max:"$count"}}})
{
"result" : [
{
"_id" : "other text",
"maxCount" : 4
},
{
"_id" : "here is text",
"maxCount" : 13
}
],
"ok" : 1
}
如您所见,上面没有返回原始文件。如果需要原始文档,则可以进行查询以查找与唯一文本和计数值匹配的文档。
作为替代方案,您可以先运行“distinct”命令以返回所有不同值的数组,然后使用 sort 和 limit 对每个值运行查询以返回具有最高值“count”的文档. sort() 和 limit() 方法在“高级查询”文档的“游标方法”部分中进行了说明: http://www.mongodb.org/display/DOCS/Advanced+Queries#AdvancedQueries-CursorMethods
> var values = db.runCommand({distinct:"text", key:"text"}).values
> values
[ "here is text", "other text" ]
> for(v in values){var c = db.text.find({"text":values[v]}).sort({count:-1}).limit(1); c.forEach(printjson);}
{
"_id" : ObjectId("4f7b50b2df77a5e0fd4ccbf1"),
"text" : "here is text",
"count" : 13,
"somefield" : "value"
}
{
"_id" : ObjectId("4f7b50b2df77a5e0fd4ccbf4"),
"text" : "other text",
"count" : 4,
"somefield" : "value"
}
目前尚不清楚这是否正是您想要做的,但我希望它至少能给您一些入门的想法。如果我误解了,请更详细地解释您想要执行的确切操作,希望我或社区的其他成员能够帮助您。谢谢。
【讨论】: