如何计算两个 n-gram 之间的语义相似度？答案

【问题标题】：How do I calculate the semantic similarity between two n-grams?如何计算两个 n-gram 之间的语义相似度？
【发布时间】：2017-12-03 12:11:05
【问题描述】：

我正在尝试计算两个二元组之间的语义相似度，我需要使用 fasttext 的预训练词向量来完成这项任务。

例如：

b-gram 是两个元素的 python 列表： [his, name] 和 [I, am]

它们是两个元组，我需要通过任何必要的方式计算这两个元组之间的相似度。

我希望有一个分数可以给我一个很好的相似度近似值。例如 - 如果有方法可以告诉我 [His, name] 与 [I, am] 比 [An, apple] 更相似。

现在我只使用了余弦相似度，它确实包括任何语义相似度。

【问题讨论】：

【解决方案1】：

如果您首先在二元组中平均两个词向量，则余弦相似度可能会很有用。因此，您想将“his”和“name”的向量平均为一个向量。然后取“I”和“am”的向量并将它们平均为一个向量。最后，计算两个结果向量的余弦相似度，它应该会给你一个粗略的语义相似度。

【讨论】：