【发布时间】:2012-10-29 19:49:25
【问题描述】:
我有一个数据集,其中实例包含大约 200 个特征,其中大约 11 个特征是数字(整数),其余的是二进制(1/0),这些特征可能是相关的,并且它们具有不同的概率分布,
我一直在争取一个很好的相似度分数,它适用于混合向量并考虑到特征之间的相关性,
你知道这样的相似度分数吗?
谢谢, 阿里安
【问题讨论】:
标签: statistics machine-learning data-mining
我有一个数据集,其中实例包含大约 200 个特征,其中大约 11 个特征是数字(整数),其余的是二进制(1/0),这些特征可能是相关的,并且它们具有不同的概率分布,
我一直在争取一个很好的相似度分数,它适用于混合向量并考虑到特征之间的相关性,
你知道这样的相似度分数吗?
谢谢, 阿里安
【问题讨论】:
标签: statistics machine-learning data-mining
在您的情况下,相似度函数在很大程度上依赖于输入数据模式。您可能会受益于学习来自给定集合的数据输入空间的距离度量 一对相似/不相似的点,它们保持了距离关系 训练数据。
Here 是一篇不错的调查报告。
【讨论】: