【发布时间】:2012-09-30 11:53:51
【问题描述】:
我在为聚类找到合适的相似性度量时遇到了问题。我有大约 3000 个集合数组,其中每个集合都包含特定领域的特征(例如,数字、颜色、日期、字母等)。我会用一个例子来解释我的问题。
假设我只有 2 个数组(a1 和 a2),我想找出它们之间的相似性。每个数组包含 4 个集合(在我的实际问题中,每个数组有 250 个集合(域)),一个集合可以为空。
a1: {a,b}, {1,4,6}, {mon, tue, wed}, {red, blue,green}
a2: {b,c}, {2,4,6}, {}, {blue, black}
我已经使用Jaccard 索引(表示为 J)进行了相似性度量:
sim(a1,a2) = [J(a1[0], a2[0]) + J(a1[1], a2[1]) + ... + J(a1[3], a2[3])]/4
注意:我除以集合总数(在上面的例子中为4)以保持0和1之间的相似度。
Is this a proper similarity measure and are there any flaws in this approach。我分别为每个集合应用 Jaccard 索引,因为我想比较相关域之间的相似性(即颜色与颜色等......)
我不知道我的问题有任何其他适当的相似性度量。
此外,can I use this similarity measure for clustering purpose?
【问题讨论】:
标签: math cluster-analysis distance similarity euclidean-distance