【发布时间】:2021-08-20 08:27:27
【问题描述】:
假设我们有以下数据集:
数据集 A:
name age
Sally 22
Peter 35
Joe 57
Samantha 33
Kyle 30
Kieran 41
Molly 28
数据集 B:
name company
Samanta A
Peter B
Joey C
Samantha A
我的目标是匹配两个数据集,同时按距离对后续值排序并仅保留相关匹配项。换句话说,输出应该如下所示:
name_a name_b age company distance
Peter Peter 35 B 0.00
Samantha Samantha 33 A 0.00
Samantha Samanta 33 A 0.04166667
Joe Joey 57 C 0.08333333
在本例中,我使用stringdist 中的method = "jw" 计算距离,但我对任何其他可能有效的方法都很满意。到目前为止,我一直在尝试使用 stringr 或 stringdist 等软件包。
【问题讨论】:
标签: r dplyr stringr stringdist