【发布时间】:2017-07-31 23:43:14
【问题描述】:
比方说,我可以用 1000 种不同的方式定义一个人,所以我有 1000 个给定人的特征。
问题:在给定 1000 个特征的情况下,我如何运行机器学习算法来确定最佳匹配或最接近/最相似的人?
我尝试过 Kmeans,但这似乎更多地用于 2 个功能,而不是高维度。
【问题讨论】:
-
最简单的方法是计算两个人之间的相似度,即计算两个人的特征向量之间的距离。假设所有数据都是数字的,您可能希望首先对整个特征数据集进行归一化以避免任何偏差,然后计算每对人之间的余弦相似度系数。相似度越高,它们就越相似。您还可以尝试其他相似性指标,例如 L1 norm。
-
HI @Rohit 所以你的想法是:对于每个特征,使数据数字化(将单词转换为数字并存储它们的映射),然后对于每个人,比较特征之间的距离。收集每个特征的距离后,对每个特征运行余弦相似度以确定最相关的特征。一旦运行这些,我假设会计算总余弦相似度并确定哪些余弦相似度最相似,不仅要得到哪些特征最相似,还要得到哪些人?
-
你对两个人相似度的定义是什么?
-
我想最大化两个人共享的功能数量。 2 个匹配特征将少于 5 个匹配特征,依此类推。如果在优化相似性算法时有可能有帮助的替代方案,我对此非常开放。
标签: machine-learning