平衡数据集的倾向得分匹配答案

【问题标题】：Propensity Score Matching for Balanced Datasets平衡数据集的倾向得分匹配
【发布时间】：2021-11-04 17:47:16
【问题描述】：

在我在 PSM 上找到的示例中，数据集是不平衡的。换句话说，有一个小的治疗组和一个较大的对照组，从中得出最接近治疗组的观察值。通过这个过程，我们得到了一个数据集，对于治疗组和对照组具有相同数量的观察值。但是如果治疗组和对照组的观察值相等呢？

我有一个包含 600 个观察值的小型数据集； 300 治疗和 300 控制。我想提取两组治疗组和对照组的某些变量没有显着差异的观察结果。我该怎么做？

也就是说，我要限制：

1 - 我希望我的两组在某些变量方面在统计上不显着。

2- 我想在不违反 1 的情况下保留尽可能多的数据点。

我在R 中与MatchIt 合作过，但它似乎没有这样的选项。

【问题讨论】：

【解决方案1】：

MatchIt 有几个选项可以完成此操作。以下是一些：

与卡尺配对（即指定method = "nearest" 或"genetic" 和caliper）。只有最接近的单元将被配对，未配对的单元将被排除在最终分析之外。这会减少您的样本量，但会将样本限制在具有良好重叠且通常产生良好协变量平衡的区域，但会将估计值更改为未指定的值。
与替换配对（即method = "nearest" 或"genetic" 和replace = TRUE）。每个处理过的单元都将与一个控制单元匹配，但控制单元可以重复使用，所以不管有多少。当处理单元数多于控制单元时，也可以使用替换匹配。如果不使用卡尺，则此方法保留 ATT 作为目标估计值。
完全匹配（即method = "full"）。这以最佳方式形成所有单元的子类，然后产生匹配的权重。没有单位被丢弃，每个治疗组有多少单位都没有关系。使用此方法可以有效地定位任何估计值。

请务必阅读 MatchIt 小插曲以了解这些方法以及如何使用它们来估计效果。都有详细的解释。

如果这些方法都不能给您带来平衡，那么您可能只是有一个天生不平衡的样本。加权方法（在WeightIt 包中提供）可能是一个不错的选择。您应该尝试多种匹配和加权方法，以找到在保持精度和目标估计值（如果需要）的同时产生最佳平衡的方法。

【讨论】：