【发布时间】:2015-01-30 18:36:08
【问题描述】:
我有一个很大的用户兴趣列表 (>10k)。每个列表都相当长,并且包含一些用户兴趣,例如['足球'、'拳击'、'电影' ..],并且因用户而异。所以数据是相当高维的。
现在,我想计算每个列表之间的成对相似度。实际上,具体来说,对于某个列表,我想获得 n 个最相似的列表,其中 n 是任意的。我为此使用 scikit,到目前为止,我只是对列表进行矢量化并计算每个列表之间的余弦相似度。可以理解的是,这似乎很慢,并且不能很好地扩展到大型但稀疏的数据集。使用 kd-Tree 或 Ball-Tree 之类的东西会更好地为我服务吗?
【问题讨论】:
标签: scikit-learn data-mining similarity nearest-neighbor