【发布时间】:2012-09-11 12:14:41
【问题描述】:
我有大量的功能,如下所示:
id1 28273 20866 29961 27190 31790 19714 8643 14482 5384 .... upto 1000
id2 12343 45634 29961 27130 33790 14714 7633 15483 4484 ....
id3 ..... ..... ..... ..... ..... ..... .... ..... .... .... . . .
...
id200000 .... .... ... .. . . . .
我想计算每个 id 欧几里得距离并对它们进行排序以找到最近的 5 个点。 因为我的数据集非常大。最好的方法是什么。
【问题讨论】:
-
欢迎来到 Stack Overflow!我们鼓励您research your questions。如果您有 tried something already,请将其添加到问题中 - 如果没有,请先研究并尝试您的问题,然后再回来。
-
是否在不同的位置(即您正在为 1000 维空间计算此值)。如果是这样,当你说“欧几里得距离”到哪一点?如果是作为一个组,请你定义“k-closest”......你的意思并不明显。
-
例如,如果我将输入作为 id2 提供给脚本。我期望结果:关于 id2 的 5 个最近点。我想计算从 id2 到数据集中所有点的欧几里得距离,对它们进行排序并返回 5-最近点。