【问题标题】:Machine Learning Model for Multi-Label Classification where we know relationship between the labels多标签分类的机器学习模型,我们知道标签之间的关系
【发布时间】:2013-09-14 14:17:07
【问题描述】:

我手头有问题,

我需要将输入数据分类为标签 S1、S2、S3、S4 中的一个或多个

标签 S1、S2、S3 和 S4 之间存在一种关系,即,

如果输入标记为 Sn,则它必须标记为 S1..Sn。

S1、S2、S3 和 S4 就像实体 X 要通过的不同阶段。根据输入数据 X 可能经过一个或多个阶段,X 必须经过 S1 才能到达 S2,S2 才能到达 S3,以此类推

我们要确保只有到达 S3 的 X 才能通过,所以根据输入数据我们决定是否允许 X 通过 S1

如果我们有输入数据以及 X 为该输入数据经过了哪些阶段等信息,我们可以选择哪些机器学习模型来预测 X 是否达到 S3

我正在考虑多标签分类的方向输入数据阶段 S1 和 S2 之间可能存在某种关系

更新:我必须用类似的例子进行训练 1.输入数据为s1 2.输入数据为s2 3... 4 ..

【问题讨论】:

  • 这听起来更像是序数回归而不是多标签分类。
  • 关于如何使用序数回归的任何建议??
  • s_n 为因变量,特征为自变量。只需学习一个回归模型,它将隐式强制执行序数约束(但是,这种解释可能对您的类没有意义)

标签: machine-learning


【解决方案1】:

一些疑惑

你的问题还远没有说清楚,例如:

我们想优化大部分 X 到达 S3,所以根据输入数据我们决定是否允许 X 通过 S1

实际上建议,最好的模型是“总是回答是”,因为它最大限度地增加了到达 S3 的对象数量(因为它只是让任何对象到达这一点)

总体思路

我假设有两种可能的解释:

  1. 你有一个标签“管道”,这只是意味着,如果该对象尚未被标记为 i < n 的所有 S_i,则该对象不能被标记为 S_n

    这似乎不是单个模型的问题,您可以以自然的方式管道模型,即。训练一个模型1 进行识别,如果对象x 应该有标签S_1。接下来,您在训练集中具有标签S_1 的所有数据上训练模型2,并预测标签S_2,依此类推。在执行期间,您只需询问每个模型 i 是否接受(标记)传入对象 x,并在第一个模型说“不”时停止

  2. 您对标签有一些更复杂的约束,可能是严格的,也可能不是。对于这种情况,您应该尝试multi label classification with constraints 的多种方法之一,特别是关于机器学习这方面的tech report

解决方案 1 - 近似测试函数

如果您的问题可以描述为:

  • 您有数据点X,因此对于每个数据点,您都知道T_i 通过的某些流水线测试的最大数量x
  • 您想要训练一个能够预测的分类器,您的观点 x 通过的最大后续测试数是多少
  • 您无权访问实际测试 T_i 或者它们的效率非常低

那么最简单的方法是应用以下训练过程而不是一个分类器:

  1. 获取所有数据点,将y=0 标记为0,将y>=1 标记为1,并训练一些二元分类器(例如SVM)。因此,您只需暂时重新标记您的数据,以便显示通过第一次测试的点和未通过的点。让我们称这个分类器为cl_1
  2. 现在获取您的数据点,将带有y=1 的那些标记为0,将带有y>=2 的标记为1,并再次训练二元分类器,并将其命名为cl_2
  3. 重复直到所有测试都有自己的分类器,通常我们称分类器为cl_i,它可以区分标记为y=i-1 的点和标记为y>=i 的点。

现在,要对您的新点进行分类,您只需迭代地检查所有cl_i 中的i=1,..,tests 并用最大的icl_i(x)=1 回答。所以你用分类器“模拟”你的测试,然后简单地说它通过了多少这个测试的近似值。

总结一下:每个测试都可以用一个二元分类器来近似,然后“我们的点通过的最大的连续测试数是多少”这个问题近似为“出点的最大的连续分类器数是多少”归类为真实”。

解决方案 2 - 简单回归

您还可以简单地将输入空间中的回归应用到它所达到的测试数量中。回归实际上有一个印记的假设,即输出值是相关的。因此,如果您使用对(x,y) 训练数据,其中yx 通过的最后一次测试的数量,那么您实际上是在使用这样一个事实,即输出y=3 与首先获得y=2 高度相关在计算中。这种回归(非线性!)可以简单地使用神经网络(可能正则化)来完成

【讨论】:

    猜你喜欢
    • 2020-03-09
    • 2017-08-18
    • 2013-11-18
    • 2017-09-01
    • 2020-06-10
    • 2018-03-20
    • 2018-10-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多