混合（二进制和数字）向量的相似度得分答案

【问题标题】：Similarity score for mixed (binary & numerical) vectors混合（二进制和数字）向量的相似度得分
【发布时间】：2012-10-29 19:49:25
【问题描述】：

我有一个数据集，其中实例包含大约 200 个特征，其中大约 11 个特征是数字（整数），其余的是二进制（1/0），这些特征可能是相关的，并且它们具有不同的概率分布，

我一直在争取一个很好的相似度分数，它适用于混合向量并考虑到特征之间的相关性，

你知道这样的相似度分数吗？

谢谢，阿里安

【问题讨论】：

【解决方案1】：

在您的情况下，相似度函数在很大程度上依赖于输入数据模式。您可能会受益于学习来自给定集合的数据输入空间的距离度量一对相似/不相似的点，它们保持了距离关系训练数据。

Here 是一篇不错的调查报告。

【讨论】：

【解决方案2】：

多种类型的距离度量，Euclidean、Manhattan 等将根据数据集提供不同级别的准确度。最好阅读涵盖您的数据拟合方法的论文，看看他们使用了什么启发式方法。更不用说某些方法只需要相应扩展的同质数据。 Here 是一篇论文，讨论了一系列您可能会觉得有吸引力的措施。

和往常一样，测试和交叉验证，看看混合特征类型是否真的有影响。

【讨论】：