在 MYSQL 中为“最近邻”搜索实现 k-d 树？答案

【问题标题】：Implementing a k-d tree for 'nearest neighbor' search in MYSQL?在 MYSQL 中为“最近邻”搜索实现 k-d 树？
【发布时间】：2011-10-23 18:16:49
【问题描述】：

我正在为外汇市场设计一个自动交易软件。在 MYSQL 数据库中，我每隔五分钟就有多年的市场数据。除了价格和时间，我有 4 个不同的数据指标。

[Time|Price|M1|M2|M3|M4] 
x ~400,0000

Time 是主键，M1 到 M4 是不同的指标（例如标准差或移动平均线的斜率）。

这是一个真实的示例（摘录：）

+------------+--------+-----------+--------+-----------+-----------+
|  Time      | Price  |     M1    |   M2   |    M3     |     M4    |
+------------+--------+-----------+--------+-----------+-----------+
| 1105410300 | 1.3101 |   12.9132 | 0.4647 |   29.6703 |        50 |
| 1105410600 | 1.3103 |    14.056 | 0.5305 | 29.230801 |        50 |
| 1105410900 | 1.3105 |   15.3613 | 0.5722 |   26.8132 |        25 |
| 1105411200 | 1.3106 | 16.627501 | 0.4433 | 24.395599 |  26.47059 |
| 1105411500 | 1.3112 |   18.7843 | 1.0019 | 24.505501 |    34.375 |
| 1105411800 | 1.3111 |   19.8375 | 0.5626 |        20 |   32.8125 |
| 1105412100 | 1.3105 |   20.0168 | 0.6718 |    9.7802 |   23.4375 |
| 1105412400 | 1.3105 |   20.4538 | 0.8943 |     7.033 |   23.4375 |
| 1105412700 | 1.3109 |   21.6078 | 0.4902 |   11.7582 |   29.6875 |
| 1105413000 | 1.3104 |   21.2045 |  1.565 |    8.6813 |    21.875 |
+------------+--------+-----------+--------+-----------+-----------+...400k more

给定M1、M2、M3 和 M4 的输入，我想（快速准确地）找到 5,000 个最接近的匹配项。

示例输入：

+------------+--------+-----------+--------+-----------+-----------+
|  Time      | Price  |     M1    |   M2   |    M3     |     M4    |
+------------+--------+-----------+--------+-----------+-----------+
| 1205413000 | 1.4212 |   20.1045 | 1.0012 |    9.1013 |    11.575 |
+------------+--------+-----------+--------+-----------+-----------+

我认为这些指标中的每一个都可以被视为一个“维度”，并且我可以通过nearest neighbor search 来定位这个多维空间中最近的数据点。

似乎最简单的方法是遍历每个数据点并测量到我的输入点的多维距离；但速度至关重要！

我读到了用于此目的的名为 K-D Trees 的东西。谁能解释一下或提供一些材料来解释如何在 MYSQL 中实现这一点？

提到我可以对表格进行预处理，但输入是实时接收的，这可能是相关的。

目前我只是围绕每个维度上的数据单独做了一个粗略的聚类：

INSERT INTO Dim1 SELECT * FROM myTable AS myTable USE INDEX(M1) WHERE myTable.M1 < currentM1 ORDER BY M1 DESC LIMIT 2500;
INSERT INTO Dim1 SELECT * FROM myTable AS myTable USE INDEX(M1) WHERE myTable.M1 > currentM1 ORDER BY M1  ASC LIMIT 2500;

INSERT INTO Dim2 SELECT * FROM myTable AS myTable USE INDEX(M2) WHERE myTable.M2 < currentM2 ORDER BY M2 DESC LIMIT 2500;
INSERT INTO Dim2 SELECT * FROM myTable AS myTable USE INDEX(M2) WHERE myTable.M2 > currentM2 ORDER BY M2  ASC LIMIT 2500;

INSERT INTO Dim3 SELECT * FROM myTable AS myTable USE INDEX(M3) WHERE myTable.M3 < currentM3 ORDER BY M3 DESC LIMIT 2500;
INSERT INTO Dim3 SELECT * FROM myTable AS myTable USE INDEX(M3) WHERE myTable.M3 > currentM3 ORDER BY M3  ASC LIMIT 2500;

INSERT INTO Dim4 SELECT * FROM myTable AS myTable USE INDEX(M4) WHERE myTable.M4 < currentM4 ORDER BY M4 DESC LIMIT 2500;
INSERT INTO Dim4 SELECT * FROM myTable AS myTable USE INDEX(M4) WHERE myTable.M4 > currentM4 ORDER BY M4  ASC LIMIT 2500;

重要的是要明白，我对距离感兴趣的是排名，而不是价值。

编辑：我更接近于理解如何做到这一点（我认为）：我需要预处理每个指标的每一行并为其分配一个percentile，这将代表它在其范围内的位置（百分比）。

例如，对于M1 的任何给定值：

percentile = (#  rows with values less than input)/(# total rows)

如果我计算输入的百分位数并使用 that 进行最近邻搜索而不是实际值，我将有效地缩放各种指标，以便它们可以用作维度。

不过，我仍然不知道如何进行实际搜索。这甚至可以在 MySQL 中有效地完成吗？

【问题讨论】：

您说搜索输入是M1、M2、M3 和M4，但您的样本包括Time 和Price。他们是否包含在“最接近”的比赛中？你将如何定义关闭？例如M4 与M2 的规模相当大，所以我认为您不一定要以球形方式搜索...
@jswolf19 Time 和 Price 不包括在搜索中。我想通过“远离输入的events 的数量”来定义“关闭”——我的主表中的每一行都是一个event。也许需要先缩放尺寸？
假设M2 的输入是2，M4 的输入是30。Time=1105413000 会更接近还是Time=1105412400 会更接近？
为规范化数据添加列可能是个好主意，以便“接近度”在不同维度上具有可比性。您是否会在执行搜索时添加新数据以插入表中？
@jswolf 真的有必要添加新列吗？我不能只使用中位数或类似的东西吗？我打算添加新数据，而不是在执行搜索时添加新数据，而是在每次执行后立即添加。

标签： mysql sql multidimensional-array nearest-neighbor kdtree

【解决方案1】：

您应该能够执行如下查询：

SELECT * FROM myTable
WHERE M1 BETWEEN searchM1 - radiusM1 AND searchM1 + radiusM1
  AND M2 BETWEEN searchM2 - radiusM2 AND searchM2 + radiusM2
  AND M3 BETWEEN searchM3 - radiusM3 AND searchM3 + radiusM3
  AND M4 BETWEEN searchM4 - radiusM4 AND searchM4 + radiusM4

当然，对于球体，所有radius 值都相同。然后调整半径，直到接近所需的记录数。我建议binary search。

我不确定你是否想弄乱分布，但假设你这样做，你只需要给每个搜索值一个介于它在你的表中的两个值之间的排名（例如，如果排名5 是 5.5，rank 6 是 5.9，搜索值为 5.6，那么搜索 rank 可以是 5.5）

【讨论】：

他正在查看最近的点。在该间隔内可能有数百万个数据。计算所有数据的所有距离是低效的。
@JimThio，如果您知道如何使用 mysql 有效地做 OP 想要的事情，那么非常欢迎您为他们提供答案。
其实你的回答对于mysql来说已经足够好了。 Mysql 无法进行高效的最近邻搜索。我正在寻找更好的 wya。
@jswolf19：一旦你有更多的指标，这是维度的诅咒：en.wikipedia.org/wiki/Curse_of_dimensionality - MySQL 中没有有效的解决方案。 “不可能通过使用一个坐标的差异作为基于所有维度的距离的下限来快速拒绝候选人。”一种解决方案是自己在 KD 树中查找，或者使用支持 NN 操作的数据库，例如 Postgres：stackoverflow.com/questions/11015922/indexing-k-d-tree