【发布时间】:2020-10-02 01:48:48
【问题描述】:
在 Stata 中,如何对至少一个变量进行精确匹配以及对至少一个变量进行模糊匹配?
例如,假设我想对org 和year 进行精确匹配,对firstname 和lastname 进行模糊匹配。换句话说,为了让它甚至考虑对firstname和lastname的模糊匹配,org和year必须是完全匹配的。
这是一个示例数据集:
*dataset a
clear all
input str1 org year str10 firstname str12 lastname
"A" 2010 "susan" "robertson"
"A" 2011 "bob" "miller"
"B" 2010 "albert" "smith"
"B" 2011 "sue" "washington"
end
tempfile a
save `a'
还有一个,要合并:
*dataset b
clear all
input str1 org year str10 firstname str12 lastname
"A" 2010 "Susan A" "Robertson"
"A" 2011 "bob" "Miller"
"A" 2012 "francisco" "ramirez"
"B" 2010 "mike" "doorpen"
"B" 2011 "sue h" "washnngton"
end
tempfile b
save `b'
我怎样才能完成我想要的?
我能想到的最好的方法是将firstname 和lastname 组合成一个变量后使用matchit,例如name。然后,对于具有相同org 和year 的观察,只保留高于某个阈值的模糊匹配结果。但这似乎很笨拙。有没有更好的办法?对所有方法开放。
【问题讨论】:
-
当不需要的匹配数量很高时,“笨拙”特别强。例如,当有很多年和组织时。