【发布时间】:2019-09-09 04:06:02
【问题描述】:
我有一个df如下:
0 111155555511111116666611111111
1 555555111111111116666611222222
2 221111114444411111111777777777
3 111111116666666661111111111111
.......
1000 114444111111111111555555111111
我正在计算每个字符串之间的距离。例如,要获取前 2 个字符串之间的距离:textdistance.hamming(df[0], df[1])。这将返回一个整数。
现在,我想创建一个 df 来存储每个字符串之间的所有距离。在这种情况下,由于我有 1000 个字符串,我将有一个 1000 x 1000 df。第一个值是字符串 1 与自身之间的距离,然后是字符串 1 和字符串 2,依此类推。然后在下一行它的字符串 2 和 string1,字符串 2 和它本身等等。
【问题讨论】:
标签: python pandas distance-matrix