如何使用 MapReduce 进行 k 均值空间聚类答案

【问题标题】：How to use MapReduce for k-Means Spatial Clustering如何使用 MapReduce 进行 k 均值空间聚类
【发布时间】：2013-02-01 15:37:09
【问题描述】：

我是 mongodb 和 map-reduce 的新手，想通过使用 k-means 空间聚类来评估空间数据。我发现这个article 似乎是对算法的一个很好的描述，但我不知道如何将它翻译成一个 mongo shell 脚本。假设我的数据如下所示：

{
  _id: ObjectID(),
  loc: {x: <longitude>, y: <latitude>},
  user: <userid>
}

我可以使用 { k = sqrt(n/2) } 其中 n 是样本数。我可以使用聚合来获取数据的边界范围和计数等。我有点迷失了对集群点文件的引用，我认为这只是另一个集合，我不知道如何进行迭代，或者是否会在客户端或数据库中完成？

好的，我在这方面取得了一些进展，因为我已经生成了初始随机点数组，我需要在 map-reduce 阶段计算最小二乘之和，但我不知道如何通过这些到地图功能。我尝试编写 map 函数：

var mapCluster = function() {
    var key = -1;
    var sos = 0;
    var pos;
    for (var i=0; i<pts.length; i++) {
        var dx = pts[i][0] - this.arguments.pos[0];
        var dy = pts[i][1] - this.arguments.pos[1];
        var sumOfSquare = dx*dx + dy*dy;
        if (i == 0 || sumOfSquares < sos) {
            key = i;
            sos = sumOfSquares;
            pos = this.arguments.pos;
        }
    }
    emit(key, pos);
};

我这种情况下的聚类点是这样的，这可能是行不通的：

var pts = [ [x,y], [x1,y1], ... ];

因此，对于每个 mr 迭代，我们将所有收集点与该数组进行比较，并发出我们最接近的点的索引以及收集点的位置，然后在 reduce 函数中与每个相关的点的平均值index 将用于创建新的聚类点位置。然后在 finalize 函数中我可以更新集群文档。

我假设我可以在集群文档上执行 findOne() 以在 map 函数中加载集群点，但我们是否希望在每次调用 map 时加载此文档？或者有没有办法为每次迭代加载一次？

所以看起来你可以像这样使用范围变量来执行上述操作：

db.main.mapReduce( mapCluster, mapReduce, { scope: { pnts: pnts, ... }} );

你必须小心范围内的变量名，因为它们被放置在 map 的范围内，reduce 和 finalize 函数可能会与现有的变量名发生冲突。

【问题讨论】：

是的，但我已经 3 年没有看过它了，也不记得我做了什么。我相信我最终使用了fourier.eng.hmc.edu/e161/lectures/classification/node13.html 那里描述的迭代自组织集群。

标签： mongodb mapreduce cluster-analysis spatial

【解决方案1】：

你试过什么？

请注意，您将需要不止一轮的映射器。

使用在 MR 上运行 k-means 的规范方法，每次迭代需要一个映射器/缩减器。

那么，你可以尝试只编写一次迭代的 map 和 reduce 步骤吗？

【讨论】：

说实话，我还没有写过map-reduce函数，这是我的第一次尝试，可能有点复杂，但这是我需要实现的。我的第一步是获取一个聚合来提取空间范围，我刚刚解决了一个问题，所以我可以继续前进。接下来我将生成初始条件所需的 k 个随机点。
之后，我不确定如何使用这些随机点和我的一次迭代所需的点表来进行 map-reduce。我假设我需要一些可以运行的函数来进行迭代并确定何时停止，但我不确定应该在哪里或如何构建它。指向执行类似操作的其他代码的指针会很有帮助，或者一个示例会非常有帮助。
先尝试一次迭代，将每个对象分配到最小二乘随机聚类中心。然后在 reducer 中，重新计算集群中心。为了获得额外的性能，请使用组合器来避免生成大小为“n”的临时数据。
谢谢这是个好建议。我已经阅读了更多内容，并根据我的进度更新了问题。