【发布时间】:2015-12-27 04:25:20
【问题描述】:
我需要一些帮助来定义自定义相似度度量。
我有一个数据集,其元素由 4 个属性定义。 例如,考虑以下两项:
Element 1:
A1: "R1", "R3", "R4", "R7"
A2: "H1"
A3 "F1", "F2"
A4 "aaa" "bbb"
Element 2:
A1: "R1", "R2"
A2: "H1"
A3 "F1", "F2"
A4 "aaa" "bbb" "ccc" "ddd" "eee" "fff"
我必须实现一个满足以下条件的相似性度量:
1 - 如果A2值相同,则两个元素必须属于同一个簇
2 - 如果两个元素在 A4 上至少有一个共同值,则 who 元素必须属于同一个簇。
我需要使用一种加权 Jaccard 度量。如果 A2 和 A4 满足条件 1 和 2,则定义一个相似性度量来计算每个属性的 Jaccard 距离,然后添加一种高权重,在数学上是否正确?
如果是这样,如何将相似度矩阵转换为距离矩阵?
【问题讨论】:
-
Is it mathematically correct to define ...这当然不是编程问题。转换必须满足几件事才能成为指标。你可以查一下,然后你必须检查......这里可能跑题了。
标签: machine-learning cluster-analysis data-mining similarity