【发布时间】:2012-12-17 14:59:24
【问题描述】:
我已经了解 LSA 在计算单词之间的相似度时是如何工作的。我正在使用网站 lsa.colorado.edu 中的 LSA,但我找不到如何计算句子或多个单词之间相似度的来源。它只是通过对所有成对相似性进行平均来完成吗?
【问题讨论】:
标签: lsa
我已经了解 LSA 在计算单词之间的相似度时是如何工作的。我正在使用网站 lsa.colorado.edu 中的 LSA,但我找不到如何计算句子或多个单词之间相似度的来源。它只是通过对所有成对相似性进行平均来完成吗?
【问题讨论】:
标签: lsa
您可以简单地将词向量组合在一起,然后将最终总和作为句子向量返回。由于这些表示与单词表示具有相同的类型,因此您可以轻松地使用现有的方法来计算语义相似度。
然后,您可以使用这些向量之间的余弦值来计算语义相似度。
我目前正在使用S-Space 库,它有一个执行此任务的DocumentVectorBuilder 类。
【讨论】:
您使用所谓的点积来计算两个向量之间的余弦相似度。因此,一旦您从术语文档频率矩阵中获得 SVD 矩阵,您就可以在两个向量之间应用点积公式。
【讨论】: