【问题标题】:Algorithm to compare similarity of English sentences比较英语句子相似度的算法
【发布时间】:2011-07-15 08:37:09
【问题描述】:

我有一组句子,我需要分析它们以查看它们的相似程度。

是否有任何既定的算法可以做到这一点?

我在乎:

  • 包含相同的词(暂时忽略变形)
  • 以相似的顺序包含相同的单词

我之前使用过 Levenshtein 距离和 n-gram 进行拼写,但我并不完全有信心将它们转化为我的目的。

天真地说,“我不在乎拼写差异,拼写错误可以被视为不同的单词”,尽管考虑到这一点也许会很好。

也许在空格处拆分句子的某种混合和上述(或其他)算法之一将是一个起点

有哪些可用选项?有什么建议吗?

谢谢!

【问题讨论】:

    标签: algorithm


    【解决方案1】:

    This paper 比较几个句子相似性度量。也许您可以按原样使用其中之一,或者根据需要对其进行修改。

    否则句子相似性度量是谷歌的一个很好的关键词。

    【讨论】:

    • @Andrew 实际上我只是在谷歌上搜索,因为这个问题引起了我的兴趣 :) 我不熟悉这个话题......我知道你的问题可能出在技术细节上,这些细节在那篇论文(让它抗拼写错误,屈折变化等很好,英语单词几乎没有屈折变化)
    【解决方案2】:

    要忽略变形,您应该研究词干算法:http://en.wikipedia.org/wiki/Porter_stemmer

    它们将单词简化为词根。

    【讨论】:

      猜你喜欢
      • 2021-03-30
      • 1970-01-01
      • 2012-04-08
      • 1970-01-01
      • 1970-01-01
      • 2020-06-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多