【发布时间】:2011-07-15 08:37:09
【问题描述】:
我有一组句子,我需要分析它们以查看它们的相似程度。
是否有任何既定的算法可以做到这一点?
我在乎:
- 包含相同的词(暂时忽略变形)
- 以相似的顺序包含相同的单词
我之前使用过 Levenshtein 距离和 n-gram 进行拼写,但我并不完全有信心将它们转化为我的目的。
天真地说,“我不在乎拼写差异,拼写错误可以被视为不同的单词”,尽管考虑到这一点也许会很好。
也许在空格处拆分句子的某种混合和上述(或其他)算法之一将是一个起点
有哪些可用选项?有什么建议吗?
谢谢!
【问题讨论】:
标签: algorithm