【发布时间】:2019-04-11 18:22:32
【问题描述】:
Levenshtein distance 是一种衡量单词之间差异的方法,但对于短语而言则不然。
是否有一个很好的距离度量来衡量短语之间的差异?
例如,如果短语 1 由 n 个单词 x1 x2 x_n 组成,而短语 2 由 m 个单词 y1 y2 y_m 组成。我认为它们应该按单词模糊对齐,然后对齐的单词应该对它们的相似程度进行评分,并且应该对未对齐的单词应用某种间隙惩罚。这些正分数和负分数应该以某种方式汇总。似乎涉及一些启发式方法。
是否存在衡量短语之间相似度的现有解决方案? Python 是首选,但其他解决方案也可以。谢谢。
【问题讨论】:
标签: python similarity levenshtein-distance sentence-similarity