【发布时间】:2019-02-17 22:17:46
【问题描述】:
在我之前的一个堆栈溢出问题 (here) 中,建议我使用层次聚类根据汉明距离对列表中包含的字符串进行分组。我发现了其他几位对 Python SciPy 包有疑问的发帖人,特别是与我有类似问题的链接函数(here 和 here)。
如果我对 SciPy 的链接函数的理解是正确的,我需要传入一个数组并根据汉明距离指定与集群的链接。但是,当我尝试在几个字符串的列表上实现它时:
import scipy.cluster.hierarchy as sch
X = [[i] for i in ['apples','applez','appelz','apppel','orange','oranze','oranqg','orangs']]
Z = sch.linkage(X,method='complete',metric='Hamming')
我收到以下错误:
Traceback (most recent call last):
File "C:/Users/nguyenthoh/Desktop/UMI_grouping/scratch_script.py", line 15, in <module>
Z = sch.linkage(X,method='complete',metric='Hamming')
File "C:\Users\User\AppData\Roaming\Python\Python27\site-packages\scipy\cluster\hierarchy.py", line 694, in linkage
y = _convert_to_double(np.asarray(y, order='c'))
File "C:\Users\User\AppData\Roaming\Python\Python27\site-packages\scipy\cluster\hierarchy.py", line 1216, in _convert_to_double
X = X.astype(np.double)
ValueError: could not convert string to float: apples
这显然表明链接的输入需要是一个数字数组,而不是字符串。
有没有办法将字符串与 SciPy 的链接一起使用,或者我是否需要提供带有链接的汉明距离函数以便它可以对字符串进行聚类?
【问题讨论】:
标签: python string scipy hierarchical-clustering