【发布时间】:2016-06-08 06:19:39
【问题描述】:
我正在尝试在 Azure ML 中进行一些基本的多标签分类。我有以下格式的一些基本数据:
value_x value_y label
x1 y1 label1
x2 y2 label1
x3 y3 label2
.....
我的问题是,在我的数据中,某些标签(总共五个标签中)的比例过高,因为大约 40% 的数据是标签 1,大约 20% 是标签 2,其余大约 10%。
我想从中抽取一个样本来训练我的模型,以便每个标签都以相同的数量表示。
在标签列的采样模块中尝试了分层选项,但这只是给了我一个与初始数据集中标签分布相同的采样。
知道如何用模块做到这一点吗?
【问题讨论】:
-
写一个R模块来操作数据?不确定这是否是最佳实践。
-
最后我为它写了一个 Python 脚本,但我想知道是否已经内置了一些我缺少的东西。
标签: machine-learning classification sampling multilabel-classification azure-machine-learning-studio