【发布时间】:2021-03-09 20:26:55
【问题描述】:
我有一个带有四个回归标签的数据。每个回归标签的样本都是不平衡的。数据随帖子附在这里 data_multi_label_reg.csv.
它有 5 列,其中 4 列,即 A、B、C 和 D 用于回归标签 sample 用于数据中的样本或训练示例。
每个样本仅针对四个标签之一定义。因此,每个样本都带有一个标签值,其余为空。
此外,标签高度不平衡。例如,D 是为大多数样本定义的,而A 是为最少的样本定义的。
是否有任何 python 包可以将此数据集划分为train_test_split,以便在训练和测试拆分中,每个标签的比率都保留在原始数据集中。
有sklearn函数如下。
x_train, x_test, y_train, y_test = train_test_split(x, y,
test_size=0.33,
random_state=0,
stratify=y)
但这似乎适用于单标签输出。多标签回归输出有没有类似的功能?
【问题讨论】:
标签: python pandas numpy machine-learning scikit-learn