【发布时间】:2016-09-22 13:49:30
【问题描述】:
如何在 Python 中计算字符串的 Levenshtein 距离矩阵
str1 str2 str3 str4 ... strn
str1 0.8 0.4 0.6 0.1 ... 0.2
str2 0.4 0.7 0.5 0.1 ... 0.1
str3 0.6 0.5 0.6 0.1 ... 0.1
str4 0.1 0.1 0.1 0.5 ... 0.6
. . . . . ... .
. . . . . ... .
. . . . . ... .
strn 0.2 0.1 0.1 0.6 ... 0.7
使用距离函数,我们可以计算两个单词之间的距离。但在这里我有 1 个包含 n 个字符串的列表。我想计算距离矩阵,然后我想对单词进行聚类。
【问题讨论】:
-
使用 NLTK
metrics和 this 帖子可能对您有所帮助 -
@Tanu 它给出了两个单词之间的距离。我想要 n 个单词的矩阵
-
@AjayJadhav 在任何时候都将计算两个单词之间的距离,因此您可以遍历矩阵并一次计算每组两个单词的距离并填充一个新矩阵
-
@Tanu 我为此写下了代码。谢谢@Tanu 和@Niranj Rajasekaran
标签: python string machine-learning text-mining levenshtein-distance