【问题标题】:similarity between string rows in a data.frame [duplicate]data.frame中字符串行之间的相似性[重复]
【发布时间】:2018-03-29 10:14:52
【问题描述】:

我有一个这样的数据框: pta corpus

pta_content 的每一行都是优惠贸易协定的内容。我正在尝试计算每一行之间的相似度,并获得一个名为 pta 的相似度矩阵。

我尝试过 stringdist,似乎 stringdist 用于两个数据帧。如何计算数据框中每一行之间的成对相似度?

【问题讨论】:

  • stringdistmatrix 会这样做
  • 可能只是使用dist()。此外,分享可重复的示例总是一个好主意。图片在这里并没有真正的帮助。
  • @RanaUsman dist() 只能应用于数值矩阵或数据框。我有字符串行。

标签: r


【解决方案1】:
a <- c("abcdefg", "hijklmnop", "qrstuvwxyz")
b <- c("abXdeXg", "hiXklXnoX", "Xrstuvwxyz")

library(RecordLinkage)
levenshteinSim(a, b)

结果

[1] 0.7142857 0.6666667 0.9000000

由于没有数据,我无能为力。

这取自Similarity scores based on string comparison in R (edit distance)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-10-23
    • 1970-01-01
    • 1970-01-01
    • 2019-08-29
    • 2019-04-18
    相关资源
    最近更新 更多