【发布时间】:2013-10-03 14:14:22
【问题描述】:
我有一组 300.000 个左右的向量,我想以某种方式进行比较,给定一个向量,我希望能够找到我想到的三种方法中最接近的向量。
- 简单的欧几里得距离
- 余弦相似度
- 使用核(例如 Gaussian)计算 Gram 矩阵。
- 将向量视为离散概率分布(这使得 有意义)并计算一些散度度量。
我真的不明白什么时候做一个而不是另一个有用。我的数据有很多零元素。考虑到这一点,对于这三种方法中哪一种最好,是否有一些一般的经验法则?
抱歉,这个问题很弱,但我必须从某个地方开始......
谢谢!
【问题讨论】:
标签: probability euclidean-distance cosine-similarity