【问题标题】:Propensity Score Matching for Balanced Datasets平衡数据集的倾向得分匹配
【发布时间】:2021-11-04 17:47:16
【问题描述】:

在我在 PSM 上找到的示例中,数据集是不平衡的。换句话说,有一个小的治疗组和一个较大的对照组,从中得出最接近治疗组的观察值。通过这个过程,我们得到了一个数据集,对于治疗组和对照组具有相同数量的观察值。但是如果治疗组和对照组的观察值相等呢?

我有一个包含 600 个观察值的小型数据集; 300 治疗和 300 控制。我想提取两组治疗组和对照组的某些变量没有显着差异的观察结果。我该怎么做?

也就是说,我要限制:

1 - 我希望我的两组在某些变量方面在统计上不显着。

2- 我想在不违反 1 的情况下保留尽可能多的数据点。

我在R 中与MatchIt 合作过,但它似乎没有这样的选项。

【问题讨论】:

  • 1 应该更好地定义,例如是否应该只考虑边际分布,目标阈值是多少等。21 不一致,因此应定义双重目标。
  • 另一种方法怎么样,例如逆概率加权?

标签: python r propensity-score-matching


【解决方案1】:

MatchIt 有几个选项可以完成此操作。以下是一些:

  1. 与卡尺配对(即指定method = "nearest""genetic"caliper)。只有最接近的单元将被配对,未配对的单元将被排除在最终分析之外。这会减少您的样本量,但会将样本限制在具有良好重叠且通常产生良好协变量平衡的区域,但会将估计值更改为未指定的值。

  2. 与替换配对(即method = "nearest""genetic"replace = TRUE)。每个处理过的单元都将与一个控制单元匹配,但控制单元可以重复使用,所以不管有多少。当处理单元数多于控制单元时,也可以使用替换匹配。如果不使用卡尺,则此方法保留 ATT 作为目标估计值。

  3. 完全匹配(即method = "full")。这以最佳方式形成所有单元的子类,然后产生匹配的权重。没有单位被丢弃,每个治疗组有多少单位都没有关系。使用此方法可以有效地定位任何估计值。

请务必阅读 MatchIt 小插曲以了解这些方法以及如何使用它们来估计效果。都有详细的解释。

如果这些方法都不能给您带来平衡,那么您可能只是有一个天生不平衡的样本。加权方法(在WeightIt 包中提供)可能是一个不错的选择。您应该尝试多种匹配和加权方法,以找到在保持精度和目标估计值(如果需要)的同时产生最佳平衡的方法。

【讨论】:

    猜你喜欢
    • 2021-06-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-04-10
    • 1970-01-01
    • 2019-03-09
    相关资源
    最近更新 更多