【发布时间】:2014-04-10 11:48:33
【问题描述】:
为什么将 LP 空间归一化用于 Mahout VectorNormMapper 以获取项目相似性。还读到 2 的范数幂对 CosineSimilarity 非常有效。
是否有直观的解释说明为什么要使用它,以及如何确定给定相似度类的最佳功率值。
【问题讨论】:
为什么将 LP 空间归一化用于 Mahout VectorNormMapper 以获取项目相似性。还读到 2 的范数幂对 CosineSimilarity 非常有效。
是否有直观的解释说明为什么要使用它,以及如何确定给定相似度类的最佳功率值。
【问题讨论】:
可以为任何 L_p 度量定义向量范数。根据您正在处理的问题,不同的规范具有不同的属性。 p的常见值包括1和2,偶尔使用0。
Mahout 中的某些相似函数与特定规范密切相关。您的余弦相似度示例是一个很好的示例。余弦相似度是通过缩放两个向量输入以使 L_2 长度 = 1 然后取点积来计算的。如果向量在笛卡尔空间中表示,则该值等于向量之间夹角的余弦值。该值也是 sqrt(1-d^2),其中 d 是归一化向量之间差异的 L_2 范数。
这意味着余弦相似度和L_2距离之间存在密切联系。
这能回答你的问题吗?
顺便说一句,这些问题可能会在 Apache Mahout 邮件列表上得到更快的回答。
【讨论】: