【发布时间】:2020-06-23 14:05:54
【问题描述】:
我有六个特征列和一个目标列,这是不平衡的。 我可以通过复制与常量完全相同的内容(月、年列)仅为 X1、X2、X3、X4 四个列创建合成记录来制作像 ADASYN 或 SMOTE 这样的过采样方法
当前:
预期一:它可以通过对目标类'1'进行上采样来创建合成记录,但是记录的数量可以增加,但添加的记录应该有月份和年份(如下所示不变)
【问题讨论】:
-
如果您只想对某些列进行上采样,您可以将要上采样的列拆分为单独的数据框,然后对它们进行上采样,并在对单独的列进行上采样后重新添加到其他列中数据框。
-
但是未更改的列和上采样的数据帧会有不同的行数,不是吗?我需要为常量列和我需要在合成中创建的记录具有相同数量的记录(在创建合成记录时,他们应该照原样复制我的常量列的条目)。希望这能澄清要求。我们可以在 ADASYN、SMOTE 或任何其他方法中使用任何类似参数列吗?
-
从上面的第二张图片中,它从记录 2 创建记录 (3,4,5,6) 尝试平衡数据集。在使用任何技术进行此操作时,我不想更改这两列中的值(月:10,年:2000),但可以为 X1、X2、X3 和 X4 列设置任何值。这平衡但在复制时不会更改两列的值
标签: machine-learning imbalanced-data smote