使用不平衡学习过采样后仅检索重采样实例的索引？答案

【问题标题】：Retrieve the indices for only the resampled instances after oversampling using imbalanced-learn?使用不平衡学习过采样后仅检索重采样实例的索引？
【发布时间】：2019-12-19 05:10:10
【问题描述】：

对于数据不平衡的二进制文本分类问题，我使用imbalanced-learn 库的函数RandomOverSampler 来平衡类。

现在，我只想从原始数据中检索过采样（复制）的实例。例如，如果“item_1”是原始数据，第 2 到 4 项是“item_1”的副本，我只需要“item_2”、“item_3”、“item_4”的索引进行进一步处理，而省略“项目_1”。

item_1
item_2
item_3
item_4

这是我的代码：

from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42)

X_listed = []
for eachTrainInstance in X_train:
    X_listed.append([eachTrainInstance])

X_tr_resampled, y_tr_resampled = ros.fit_sample(X_listed, y_train)

【问题讨论】：

标签： nlp text-classification indices oversampling imbalanced-data

【解决方案1】：

似乎所有过采样的实例（当然还有它们对应的索引）都在经过过采样的原始数据的末尾连接起来。

oversampled_instances = y_tr_resampled[len(y_train):]

【讨论】：