R包MatchIt错误汇总输出答案

【问题标题】：R package MatchIt erroneous summary outputR包MatchIt错误汇总输出
【发布时间】：2014-01-17 18:15:08
【问题描述】：

我正在通过包 MatchIt 运行粗化精确匹配 (CEM) 作为预处理步骤，并希望在进一步分析中使用匹配的数据。在查看匹配数据的汇总统计数据时，我注意到从匹配数据集中提取的均值与 MatchIt 汇总输出不同。例如，使用 lalonde 数据集：

library(MatchIt)
library(doBy)
data(lalonde)

m.out <- matchit(treat ~ age + educ + black + hispan + married + nodegree + re74 + re75, data = lalonde, method = "cem")
summary(m.out)   #Means from MatchIt summary output:

Summary of balance for matched data: 

             Means Treated   Means Control 
 age         21.5441         21.1781 
 educ        10.2941         10.3827 
 black       0.8676          0.8676 
 hispan      0.0588          0.0588 
 married     0.0441          0.0441 
 nodegree    0.6176          0.6176 
 re74        456.1345        622.8740 
 re75        350.6728        520.7135 

m.dat<-match.data(m.out)
ExtractedMeans<-summaryBy(age+educ+black+hispan+married+nodegree+re74+re75 ~ treat, data = m.dat, FUN=function(x) { c(Mean=mean(x)) } )
ExtractedMeans   #Means extracted manually from matched data:

treat         1          0 
age.Mean      21.544    19.628 
educ.Mean     10.294     9.7179 
black.Mean    0.8676    0.60256 
hispan.Mean   0.0588    0.10256 
married.Mean  0.0441    0.07692 
nodegree.Mean 0.6176    0.75641 
re74.Mean     456.13    609.61 
re75.Mean     350.67    464.22

从匹配数据中手动提取的对照组的均值与 MatchIt 汇总输出不一致。有人知道这里发生了什么吗？我上周将这个问题发布到了 MatchIt gmane 电子邮件列表，但没有收到回复。感谢您的帮助。

【问题讨论】：

标签： r matching summary

【解决方案1】：

“doSummary”函数未使用权重。如果将权重乘以要平均的变量，您将获得与包装显示相同的平均值。举个例子，拿你的代码做这个：

> tapply(m.dat$age, m.dat$treat, mean)
       0        1 
19.62821 21.54412

> tapply(m.dat$age*m.dat$weights, m.dat$treat, mean)
       0        1 
21.17811 21.54412

因此，它们与 MatchIt 结果相同...

【讨论】：

非常感谢您的澄清。更明显的是，MatchIt 给出的输出统计数据是加权的。我仅将 MatchIt 用作预处理步骤，并且不打算在回归分析中使用权重，因此我需要一个没有权重的良好匹配。
一个好主意是尝试另一种方法而不是 cem。我建议您使用最近邻法，但您必须尝试看看哪种方法效果更好，而不会丢弃太多观察结果。对于上面的示例，nearest 似乎工作正常。
是的，非常好的建议。由于我有多个协变量，我最终使用“最近”基于倾向得分进行匹配并调整卡尺规格，直到我对匹配和样本量感到满意。匹配后，我使用与 MatchIt 稍有不同的公式检查每个协变量的平衡（(mean1-mean0)/sqrt(var1+var0)，基于 Imbens 和 Wooldridge 2008，“项目评估计量经济学的最新发展”）。我对结果匹配感到满意。
据我所知，卡尺应用于倾向得分而不是单个变量。因此，您最终可以得到单个匹配对，它们的各个变量具有非常不同的值。