计算相似度的方法答案

【问题标题】：Ways to calculate similarity计算相似度的方法
【发布时间】：2011-02-28 05:34:57
【问题描述】：

我正在做一个社区网站，需要我计算任意两个用户之间的相似度。每个用户都使用以下属性进行描述：

年龄、皮肤类型（油性、干性）、头发类型（长、短、中）、生活方式（活跃的户外爱好者、电视迷）等。

谁能告诉我如何解决这个问题或向我指出一些资源？

【问题讨论】：

相关：stackoverflow.com/questions/3007790/finding-the-closest-match/…

标签： statistics social-networking data-mining pattern-recognition similarity

【解决方案1】：

另一种计算（在R 中）数据集中观察值之间的所有成对差异（距离）的方法。原始变量可能是混合类型。通过使用 Gower 的一般相异系数（Gower, J. C. (1971) A general coefficient ofsimilarity and its some properties, Biometrics 27, 857–874）来处理名义、有序和（a）对称二进制数据。如需更多信息，请查看this on page 47。如果 x 包含这些数据类型的任何列，则将使用 Gower 系数作为度量。

例如

x1 <- factor(c(10, 12, 25, 14, 29))
x2 <- factor(c("oily", "dry", "dry", "dry", "oily"))
x3 <- factor(c("medium", "short", "medium", "medium", "long"))
x4 <- factor(c("active outdoor lover", "TV junky", "TV junky", "active outdoor lover", "TV junky"))
x <- cbind(x1,x2,x3,x4)

library(cluster)
daisy(x, metric = "euclidean")

你会得到：

Dissimilarities :
         1        2        3        4
2 2.000000                           
3 3.316625 2.236068                  
4 2.236068 1.732051 1.414214         
5 4.242641 3.741657 1.732051 2.645751

如果您对分类数据的降维方法感兴趣（也是一种将变量排列到同质集群中的方法），请查看this

【讨论】：

“Gower's distance” is chosen by metric "gower" or automatically if some columns of x are not numeric (?cluster::daisy) 所以你不必通过metric - 这很混乱。

【解决方案2】：

你应该阅读这两个主题。

【讨论】：

【解决方案3】：

三个步骤可实现两个数据点之间差异的简单主观指标，这可能适用于您的情况：

将所有变量捕获在一个具有代表性的数值变量中，例如：皮肤类型（油性=-1，干性=1），头发类型（长=2，短=0，中=1），生活方式（活跃的户外爱好者=1，电视迷=-1)，年龄是一个数字。
缩放所有数字范围，使其符合您为指示差异而赋予它们的相对重要性。例如：10岁的年龄差，就跟长发和中发的差距，油性皮肤和干性皮肤的差距一样大。因此，年龄尺度上的 10 与头发尺度上的 1 与皮肤尺度上的 2 一样不同，因此将年龄差异缩放 0.1，将头发缩放 1，将皮肤缩放 0.5
使用适当的distance metric 将两个人在不同尺度上的差异组合成一个整体差异。这个数字越小，它们就越相似。我建议将简单的二次差分作为距离函数的第一次尝试。

然后可以计算两个人之间的差异（我假设 Person.age、.skin、.hair 等已经通过第 1 步并且是数字）：

double Difference(Person p1, Person p2) {

    double agescale=0.1;
    double skinscale=0.5;
    double hairscale=1;
    double lifestylescale=1;

    double agediff = (p1.age-p2.age)*agescale;
    double skindiff = (p1.skin-p2.skin)*skinscale;
    double hairdiff = (p1.hair-p2.hair)*hairscale;
    double lifestylediff = (p1.lifestyle-p2.lifestyle)*lifestylescale;

    double diff = sqrt(agediff^2 + skindiff^2 + hairdiff^2 + lifestylediff^2);
    return diff;
}

请注意，此示例中的 diff 不是像 (0..1) 这样的好比例。它的值可以从 0（无差异）到较大的值（高差异）。此外，这种方法几乎完全不科学，它只是为了快速为您提供有效的差异度量。

【讨论】：

【解决方案4】：

你应该看看

Data Mining 和 Data Warehousing（基本）
Machine Learning（额外）
Artificial Neural Networks（尤其是SOM）
Pattern Recognition（相关）

这些主题将让您的程序识别用户集合中的相似性和集群，并尝试适应它们...

然后您可以知道相关用户的不同隐藏的公共组...（即绿头发的用户通常不喜欢看电视...）

作为建议，请尝试使用现成的工具来实现此功能，而不是自己实现...
看看Open Directory Data Mining Projects

【讨论】：

【解决方案5】：

查看计算 srting 差异的算法。它与您需要的非常相似。将属性存储为位字符串并计算字符串之间的距离

【讨论】：

【解决方案6】：

给每个属性一个适当的权重，并添加值之间的差异。

enum SkinType
    Dry, Medium, Oily

enum HairLength
    Bald, Short, Medium, Long

UserDifference(user1, user2)
    total := 0
    total += abs(user1.Age - user2.Age) * 0.1
    total += abs((int)user1.Skin - (int)user2.Skin) * 0.5
    total += abs((int)user1.Hair - (int)user2.Hair) * 0.8
    # etc...
    return total

如果你真的需要相似而不是差异，请使用1 / UserDifference(a, b)

【讨论】：