data.frame中字符串行之间的相似性[重复]答案

【问题标题】：similarity between string rows in a data.frame [duplicate]data.frame中字符串行之间的相似性[重复]
【发布时间】：2018-03-29 10:14:52
【问题描述】：

我有一个这样的数据框： pta corpus

pta_content 的每一行都是优惠贸易协定的内容。我正在尝试计算每一行之间的相似度，并获得一个名为 pta 的相似度矩阵。

我尝试过 stringdist，似乎 stringdist 用于两个数据帧。如何计算数据框中每一行之间的成对相似度？

【问题讨论】：

标签： r

【解决方案1】：

a <- c("abcdefg", "hijklmnop", "qrstuvwxyz")
b <- c("abXdeXg", "hiXklXnoX", "Xrstuvwxyz")

library(RecordLinkage)
levenshteinSim(a, b)

结果

[1] 0.7142857 0.6666667 0.9000000

由于没有数据，我无能为力。

【讨论】：