比较英语句子相似度的算法答案

【问题标题】：Algorithm to compare similarity of English sentences比较英语句子相似度的算法
【发布时间】：2011-07-15 08:37:09
【问题描述】：

我有一组句子，我需要分析它们以查看它们的相似程度。

是否有任何既定的算法可以做到这一点？

我在乎：

我之前使用过 Levenshtein 距离和 n-gram 进行拼写，但我并不完全有信心将它们转化为我的目的。

天真地说，“我不在乎拼写差异，拼写错误可以被视为不同的单词”，尽管考虑到这一点也许会很好。

也许在空格处拆分句子的某种混合和上述（或其他）算法之一将是一个起点

有哪些可用选项？有什么建议吗？

谢谢！

【问题讨论】：

标签： algorithm

【解决方案1】：

This paper 比较几个句子相似性度量。也许您可以按原样使用其中之一，或者根据需要对其进行修改。

否则句子相似性度量是谷歌的一个很好的关键词。

【讨论】：

@Andrew 实际上我只是在谷歌上搜索，因为这个问题引起了我的兴趣 :) 我不熟悉这个话题......我知道你的问题可能出在技术细节上，这些细节在那篇论文（让它抗拼写错误，屈折变化等很好，英语单词几乎没有屈折变化）

【解决方案2】：

要忽略变形，您应该研究词干算法：http://en.wikipedia.org/wiki/Porter_stemmer

它们将单词简化为词根。

【讨论】：