【发布时间】:2016-10-28 06:21:20
【问题描述】:
我有两个向量,每个向量都包含一系列字符串。例如,
V1=c("pen", "document folder", "warn")
V2=c("pens", "copy folder", "warning")
我需要找出哪两个最匹配。我直接使用 levenshtein 距离。但这还不够好。就我而言,钢笔和钢笔应该是同一个意思。文档文件夹和复制文件夹可能是一回事。警告和警告实际上是相同的。我正在尝试使用像 tm.但我不太确定哪些功能适合这样做。谁能告诉我这个?
【问题讨论】:
-
你需要看
stringdist。 -
可能需要制作一个自定义字典。 This example using wordnet 可能会有所帮助
-
阅读 Levenshtein 距离。基本上 - 需要进行多少“单步”更改才能匹配字符串。最佳匹配是最小化这个值。
?adist