余弦相似度度量：多个结果答案

【问题标题】：Cosine Similarity Measure: Multiple results余弦相似度度量：多个结果
【发布时间】：2011-02-08 12:20:06
【问题描述】：

我的程序使用聚类来生成相似项目的子集，然后使用余弦相似度度量作为确定聚类相似程度的方法。例如，如果用户 1 有 3 个集群，用户 2 有 3 个集群，那么每个集群都会相互比较，将产生 9 个使用余弦相似度度量的结果，例如[0.3, 0.1, 0.4, 0.12, 0.0, 0.6, 0.8, 1.0, 0.22]

我的问题是，基于这些结果，我如何将这些值转化为有形的结果，以显示这两个用户有多相似？

我制作的一个简单方法是将所有值除以比较次数，然后将它们相加得到 1 个值，但这是一种非常简单的方法。

谢谢，

作为

我想要达到的基本描述是，是否有可能从社交书签网络服务 Delicious.com 中，从他们的书签和标签中确定两个用户的相似程度。

到目前为止，我已经根据用户书签的标签和每个标签的共现创建了集群，例如一个集群可能是：

fruit: (apple, 15), (orange, 9), (kiwi, 2)

另一个用户可能有一个从他们的标签生成的类似集群：

fruit: (apple, 12), (strawberry, 7), (orange, 3)

该数字表示标签在保存的书签中与此示例中的标签“fruit”共同出现的次数。

我使用余弦相似度度量来比较这些集群以确定它们的相似程度，并且从我最初的问题来看，有许多集群比较结果（将每个用户集群与另一个用户集群进行比较）我不确定如何汇总结果产生有意义的结果。

很有可能是我一直不正确地使用余弦相似度，

【问题讨论】：

标签： cluster-analysis distance similarity trigonometry measure

【解决方案1】：

问题定义不明确...如果有更多细节，可能会提供有关该方法有效性的评论，一般来说（使用余弦相似度，计算方式等）以及用于汇总最终结果的方法的有效性。

本质上，您是平均为每对集群 (Ca, Cb) 计算的余弦相似度值，其中 Ca 是用户 A“拥有”和 Cb 的集群B“拥有”的集群。

我猜这可以通过使用加权平均值来大大改善，该平均值会考虑到集群的“拥有”数量用户可以展示。
也许这种“拥有”关系纯粹是布尔关系：用户拥有或没有特定的集群，但很有可能他/她的“拥有”可以用[有序]分类属性甚至数值来限定（无论是相对的：说给定用户拥有的给定集群的百分比，与他/她拥有的其他集群相比，或者是绝对的）。
因为每个余弦相似度都基于用户“A”拥有的集群和用户“B”拥有的集群，如果正确标准化，则可以获取相应“拥有”度量的乘积作为应用于平均计算中相应余弦相似度项的系数。以这种方式，如果两个用户实际上相似，但其中一个恰好有一个或两个额外的集群，并且“拥有”因素非常低，那么汇总结果不会因此受到太大影响。

通常距离计算（例如使用余弦相似度）以及聚合公式（例如平均值或加权平均值）对各个维度的比例非常敏感（以及它们的相对“重要性”）。出于这个原因，通常很难提供诸如上述的通用建议。理论对于分类问题非常重要，但需要注意不要“盲目地”应用公式：为树而松林很容易;-)

为了帮助改进问题，以下是我大致理解的内容，请补充和更正问题，以便更好地“感受”您要达到的目标以及系统的特点，以便您可以收到更好的建议。
我们有 items，我们假设它们是类似矢量的对象，并分配给 clusters。子集关键字暗示每个项目可能属于一个且仅属于一个集群（或可能根本不属于任何集群），但最好确认是这种情况。
此外，最好了解 向量的维度 以某种方式归一化（以免项目的相对不重要的特征，但具有相对较大的值范围会扭曲余弦相似度或其他距离测量）
我们有用户，可以“拥有”多个集群。最好知道（在主线中）给定用户如何“拥有”集群，以及他们拥有的集群是否只是一个布尔属性（拥有或不拥有），或者是否有一些分类甚至数字度量“拥有”（用户 X 的集群 1 的系数为 0.3，集群 8 的系数为 0.2 等...）
测量两个集群之间的余弦相似度的方式也可以更好地定义（是集群的两个“中心”之间的相似度还是其他什么...

【讨论】：

【解决方案2】：

比较集合和聚类的方法有很多。 Pair-counting F-Measures, Rand index, ... 大多数都解决了将个体相似度汇总为单个整体相似度的问题。

请参阅此处以获取一些提示：

http://en.wikipedia.org/wiki/Cluster_analysis#Evaluation_of_Clustering_Results

您必须了解，虽然人类希望将所有内容总结为一个分数，但这并不总是足够的。这就是为什么有这么多指标的原因。它们各有优缺点。

【讨论】：