【问题标题】:String Distance Matrix in Python using pdistPython中使用pdist的字符串距离矩阵
【发布时间】:2018-03-09 05:28:20
【问题描述】:

如何在 Python 中计算字符串的 Jaro Winkler 距离矩阵?

我有大量手动输入的字符串(名称和记录编号),我正在尝试在列表中查找重复项,包括拼写可能略有不同的重复项。 response to a similar question 建议使用 Scipy 的 pdist 函数和自定义距离函数。我尝试使用 Levenshtein 包中的 jaro_winkler 函数来实现这个解决方案。问题在于 jaro_winkler 函数需要字符串输入,而 pdict 函数似乎需要二维数组输入。

例子:

import numpy as np
from scipy.spatial.distance import pdist
from Levenshtein import jaro_winkler

fname = np.array(['Bob','Carl','Kristen','Calr', 'Doug']).reshape(-1,1)
dm = pdist(fname, jaro_winkler)
dm = squareform(dm)

预期输出 - 像这样:

          Bob  Carl   Kristen  Calr  Doug
Bob       1.0   -        -       -     -
Carl      0.0   1.0      -       -     -
Kristen   0.0   0.46    1.0      -     -
Calr      0.0   0.93    0.46    1.0    -
Doug      0.53  0.0     0.0     0.0   1.0

实际错误:

jaro_winkler expected two Strings or two Unicodes

我假设这是因为 jaro_winkler 函数看到的是 ndarray 而不是字符串,并且我不确定如何在 pdist 函数的上下文中将函数输入转换为字符串。

有没有人建议让它工作?提前致谢!

【问题讨论】:

    标签: python string jaro-winkler pdist


    【解决方案1】:

    你需要包装距离函数,就像我在下面的例子中用 Leventhein 距离演示的那样

    import numpy as np    
    from Levenshtein import distance
    from scipy.spatial.distance import pdist, squareform
    
    # my list of strings
    strings = ["hello","hallo","choco"]
    
    # prepare 2 dimensional array M x N (M entries (3) with N dimensions (1)) 
    transformed_strings = np.array(strings).reshape(-1,1)
    
    # calculate condensed distance matrix by wrapping the Levenshtein distance function
    distance_matrix = pdist(transformed_strings,lambda x,y: distance(x[0],y[0]))
    
    # get square matrix
    print(squareform(distance_matrix))
    
    Output:
    array([[ 0.,  1.,  4.],
           [ 1.,  0.,  4.],
           [ 4.,  4.,  0.]])
    

    【讨论】:

    • 它工作正常,谢谢!但是,对于将近 16000 个字符串,这太慢了。它只使用一个核心。 Levenstein 距离是否有任何多处理解决方案?
    • @Zephro,你能以类似的方式帮助我处理 Jaccard 距离吗?
    【解决方案2】:

    对于任何有类似问题的人 - 我刚刚找到的一个解决方案是从 pdist 函数中提取相关代码,并将 [0] 添加到 jaro_winkler 函数输入中以从 numpy 数组中调用字符串。

    例子:

    X = np.asarray(fname, order='c')
    s = X.shape
    m, n = s
    dm = np.zeros((m * (m - 1)) // 2, dtype=np.double)
    
    k = 0
    for i in xrange(0, m - 1):
        for j in xrange(i + 1, m):
            dm[k] = jaro_winkler(X[i][0], X[j][0])
            k = k + 1
    
    dms = squareform(dm)
    

    即使这个算法有效,我仍然想知道是否有一种“正确的”计算机科学方法可以使用 pdist 函数来实现这一点。谢谢,希望这对某人有所帮助!

    【讨论】:

      【解决方案3】:

      这是一个既不需要 numpy 也不需要 scipy 的简洁解决方案:

      from Levenshtein import jaro_winkler
      data = ['Bob','Carl','Kristen','Calr', 'Doug']
      dm = [[ jaro_winkler(a, b) for b in data] for a in data]
      print('\n'.join([''.join([f'{item:6.2f}' for item in row]) for row in dm]))
      
        1.00  0.00  0.00  0.00  0.53
        0.00  1.00  0.46  0.93  0.00
        0.00  0.46  1.00  0.46  0.00
        0.00  0.93  0.46  1.00  0.00
        0.53  0.00  0.00  0.00  1.00
      

      【讨论】:

        最近更新 更多