levenshtein与python列表中项目的距离答案

【问题标题】：levenshtein distance with items in list in pythonlevenshtein与python列表中项目的距离
【发布时间】：2012-07-11 16:25:29
【问题描述】：

我有两个列表，在下面，我想比较相似的词的距离小于 2。我有一个函数来查找词的距离，但是作为参数，它需要这两个词。我可以找到其他列表中没有的单词，但这没有帮助。而且我可以按索引进行索引，但如下例所示，当我到达索引 7（但除此之外）时，一切都会被抛弃，因为不忠将是索引 9 和 8，而 wcop88 是 9 和 10，因此这些不会被比较。有没有办法说如果不忠的一部分在另一个列表中的某个单词中，然后检查这两个，请注意这并不总是有效，因为说如果不忠和不忠只有 in 和 ty 可以匹配，很多词可以可能匹配

[u'rt', u'cuaimatizada', u's', u'cuaimaqueserespeta', u'forgives', u'any', u'mistake', u'but', u'the', u'infidelity', u'wocp88']
[u'rt', u'cuiamatizada', u's', u'cuimaqueserespeta', u'forgive', u'any', u'mistake', u'except', u'infedelity', u'wcop88']

编辑：所以我的目标是能够为我的 levenshtein 函数提供需要检查的两个词。在这种情况下，以下对：

u'cuaimatizada      u'cuiamatizada

u'cuaimaqueserespeta u'cuimaqueserespeta

u'forgives   u'forgive

u'infedelity  u'infidelity

u'wocp88 u'wcop88

我不知道手头有哪些词。

【问题讨论】：

你能澄清一下这个问题吗？你的目标是什么？
我也不确定你想要什么......你在找zip(list1,list2)吗？
你如何确定哪些词不能比较。换句话说，如果你事先不知道单词，你用什么标准来确定(u'the', u'infedelity')是错误的？
这是乔尔的问题，我想比较比较相似的单词，因为这应该意味着它的一些拼写错误。
@jacobLoz：如果您不需要使用 Levenshtein 距离，您可以尝试查看 difflib.get_close_matches。

标签： python algorithm distance levenshtein-distance

【解决方案1】：

我认为这就是您想要的……但它会比较所有单词……而不仅仅是匹配索引

 wordpairs = [(w1,w2) for w1 in list1 for w2 in list2 if levenstein(w1,w2) < 2]

>>> matches = [(w1,w2) for w1 in l12 for w2 in l22 if levenshtein(w1,w2) < 2]

[(u'rt', u'rt'), (u's', u's'), (u'cuaimaqueserespeta', u'cuimaqueserespeta'), (u'forgives', u'forgive'), (u'any', u'any'), (u'mistake', u'mistake'), (u'infidelity',u'infedelity')]

【讨论】：

或...filter(lambda i: levenshtein(*i), itertools.product(list1, list2))
这可能更快，所以 +1 ...虽然我认为列表理解更易读
我只想提一下，你可以通过定义is_levenstein_less_than_2(x,y) 来加快这个算法的速度。你会想要这样做，因为你可以在O(min(|x|, |y|)) 中通过仅沿主对角线执行 DP 来实现这一点。
在知道abs(len(w1)-len(w2))<=2 之后，您可以通过仅比较 levenstein(w1,w2) 来加快速度（我认为）。根据定义，如果 w1 和 w2 的长度差大于 2，则编辑距离也将大于 2。+1 tho!
我认为这就是 JPvdMerwe 的评论所暗示的......不确定，但我认为