【发布时间】:2021-11-30 08:13:33
【问题描述】:
我正在处理一个严重不平衡的响应变量,因此我的主管建议我使用 SMOTE 来对我的数据集中的少数观察进行上采样。数据由许多分类预测变量组成,据我了解,themis::step_smote 来自 tidymodels 生态系统到目前为止只接受数字特征。
我知道我可以使用recipe::step_dummies 将我的因子和字符串转换为数字假人,但我担心综合观察会为这些假人创建没有任何逻辑意义的值(0 到 1 之间的值,其中逻辑上只有 0 和 1 是可能的)。
这是一个合理的问题,还是我可以继续在分类假人上使用 SMOTE?
【问题讨论】:
-
我相信这是您最终可能会得到的结果,并且取决于您使用的模型估计和确切的不平衡,这可能是一个问题吗?我还没有看到这种情况对预测环境中的结果造成问题。如果您确实遇到问题,您可能会考虑使用 ROSE 算法。这是开发版中的also available in themis and no longer requires all numeric features。
-
非常感谢您的回答。我会试试 ROSE,看看结果如何。
标签: r recipe tidymodels smote