【问题标题】：Machine Learning Model for Multi-Label Classification where we know relationship between the labels多标签分类的机器学习模型，我们知道标签之间的关系
【发布时间】：2013-09-14 14:17:07
【问题描述】：

我手头有问题，

我需要将输入数据分类为标签 S1、S2、S3、S4 中的一个或多个

标签 S1、S2、S3 和 S4 之间存在一种关系，即，

如果输入标记为 Sn，则它必须标记为 S1..Sn。

S1、S2、S3 和 S4 就像实体 X 要通过的不同阶段。根据输入数据 X 可能经过一个或多个阶段，X 必须经过 S1 才能到达 S2，S2 才能到达 S3，以此类推

我们要确保只有到达 S3 的 X 才能通过，所以根据输入数据我们决定是否允许 X 通过 S1

如果我们有输入数据以及 X 为该输入数据经过了哪些阶段等信息，我们可以选择哪些机器学习模型来预测 X 是否达到 S3

我正在考虑多标签分类的方向输入数据阶段 S1 和 S2 之间可能存在某种关系

更新：我必须用类似的例子进行训练 1.输入数据为s1 2.输入数据为s2 3... 4 ..

【问题讨论】：

这听起来更像是序数回归而不是多标签分类。
关于如何使用序数回归的任何建议？？
s_n 为因变量，特征为自变量。只需学习一个回归模型，它将隐式强制执行序数约束（但是，这种解释可能对您的类没有意义）

标签： machine-learning

【解决方案1】：

一些疑惑

你的问题还远没有说清楚，例如：

我们想优化大部分 X 到达 S3，所以根据输入数据我们决定是否允许 X 通过 S1

实际上建议，最好的模型是“总是回答是”，因为它最大限度地增加了到达 S3 的对象数量（因为它只是让任何对象到达这一点）

总体思路

我假设有两种可能的解释：

你有一个标签“管道”，这只是意味着，如果该对象尚未被标记为 i < n 的所有 S_i，则该对象不能被标记为 S_n

这似乎不是单个模型的问题，您可以以自然的方式管道模型，即。训练一个模型1 进行识别，如果对象x 应该有标签S_1。接下来，您在训练集中具有标签S_1 的所有数据上训练模型2，并预测标签S_2，依此类推。在执行期间，您只需询问每个模型 i 是否接受（标记）传入对象 x，并在第一个模型说“不”时停止
您对标签有一些更复杂的约束，可能是严格的，也可能不是。对于这种情况，您应该尝试multi label classification with constraints 的多种方法之一，特别是关于机器学习这方面的tech report。

解决方案 1 - 近似测试函数

如果您的问题可以描述为：

您有数据点X，因此对于每个数据点，您都知道T_i 通过的某些流水线测试的最大数量x
您想要训练一个能够预测的分类器，您的观点 x 通过的最大后续测试数是多少
您无权访问实际测试 T_i 或者它们的效率非常低

那么最简单的方法是应用以下训练过程而不是一个分类器：

获取所有数据点，将y=0 标记为0，将y>=1 标记为1，并训练一些二元分类器（例如SVM）。因此，您只需暂时重新标记您的数据，以便显示通过第一次测试的点和未通过的点。让我们称这个分类器为cl_1
现在获取您的数据点，将带有y=1 的那些标记为0，将带有y>=2 的标记为1，并再次训练二元分类器，并将其命名为cl_2
重复直到所有测试都有自己的分类器，通常我们称分类器为cl_i，它可以区分标记为y=i-1 的点和标记为y>=i 的点。

现在，要对您的新点进行分类，您只需迭代地检查所有cl_i 中的i=1,..,tests 并用最大的i 和cl_i(x)=1 回答。所以你用分类器“模拟”你的测试，然后简单地说它通过了多少这个测试的近似值。

总结一下：每个测试都可以用一个二元分类器来近似，然后“我们的点通过的最大的连续测试数是多少”这个问题近似为“出点的最大的连续分类器数是多少”归类为真实”。

解决方案 2 - 简单回归

您还可以简单地将输入空间中的回归应用到它所达到的测试数量中。回归实际上有一个印记的假设，即输出值是相关的。因此，如果您使用对(x,y) 训练数据，其中y 是x 通过的最后一次测试的数量，那么您实际上是在使用这样一个事实，即输出y=3 与首先获得y=2 高度相关在计算中。这种回归（非线性！）可以简单地使用神经网络（可能正则化）来完成

【讨论】：