【问题标题】:Similarity score for mixed (binary & numerical) vectors混合(二进制和数字)向量的相似度得分
【发布时间】:2012-10-29 19:49:25
【问题描述】:

我有一个数据集,其中实例包含大约 200 个特征,其中大约 11 个特征是数字(整数),其余的是二进制(1/0),这些特征可能是相关的,并且它们具有不同的概率分布,

我一直在争取一个很好的相似度分数,它适用于混合向量并考虑到特征之间的相关性,

你知道这样的相似度分数吗?

谢谢, 阿里安

【问题讨论】:

    标签: statistics machine-learning data-mining


    【解决方案1】:

    在您的情况下,相似度函数在很大程度上依赖于输入数据模式。您可能会受益于学习来自给定集合的数据输入空间的距离度量 一对相似/不相似的点,它们保持了距离关系 训练数据。

    Here 是一篇不错的调查报告。

    【讨论】:

    • 其实我为什么要定义一个相似性度量是因为我想对下采样进行聚类!所以不可能从数据中学习它
    • 您不需要标记数据来学习距离度量。流形学习和内核方法都是这些方法的示例。
    【解决方案2】:

    多种类型的距离度量,EuclideanManhattan 等将根据数据集提供不同级别的准确度。最好阅读涵盖您的数据拟合方法的论文,看看他们使用了什么启发式方法。更不用说某些方法只需要相应扩展的同质数据。 Here 是一篇论文,讨论了一系列您可能会觉得有吸引力的措施。

    和往常一样,测试和交叉验证,看看混合特征类型是否真的有影响。

    【讨论】:

    • 你知道有什么统计软件包可以很好地处理相似度分数并且有很多吗?
    • Matlab 有大量的措施,如果你可以访问这样一个昂贵的程序。否则我相信谷歌会成为你的朋友。
    猜你喜欢
    • 2022-01-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-02-06
    • 1970-01-01
    • 2011-08-30
    • 2017-10-27
    • 2022-01-05
    相关资源
    最近更新 更多