【发布时间】:2013-09-27 11:55:13
【问题描述】:
我了解有监督学习和无监督学习之间的区别:
监督学习是一种使用标记数据“教授”分类器的方法。
无监督学习让分类器“自行学习”,例如,使用聚类。
但什么是“弱监督学习”?它如何对示例进行分类?
【问题讨论】:
标签: machine-learning classification
我了解有监督学习和无监督学习之间的区别:
监督学习是一种使用标记数据“教授”分类器的方法。
无监督学习让分类器“自行学习”,例如,使用聚类。
但什么是“弱监督学习”?它如何对示例进行分类?
【问题讨论】:
标签: machine-learning classification
正如下面几位cmet所说,情况并不像我最初在2013年写的那么简单。
普遍接受的观点是
还有一些分类更符合我原来的答案,例如Zhi-Hua Zhou's 2017 A brief introduction to weakly supervised learning认为弱监督是一个总称
简而言之:在弱监督学习中,您使用标记数据的数量有限。
如何选择这些数据,以及具体如何处理这些数据取决于方法。一般来说,您使用有限数量的数据,这些数据很容易获得和/或产生真正的影响,然后学习其余的数据。我认为 bootstrapping 是一种可用于弱监督学习的方法,但正如 Ben 下面的评论所示,这不是一个普遍接受的观点。
请参阅,例如 Chris Bieman's 2007 dissertation 以获得很好的概述,它说明了以下关于引导/弱监督学习的内容:
引导,也称为自我训练,是一种学习形式 旨在使用更少的训练示例,因此有时 称为弱监督。引导从一些培训开始 示例,训练分类器,并使用被认为是积极的 此分类器产生的用于再训练的示例。作为一组 训练样本增加,分类器改进,前提是不 太多的负面例子被错误地分类为正面,这可能 导致性能下降。
例如,在词性标注的情况下,通常会在 10,000 个单词上训练一个 HMM(或最大熵或其他)标注器,每个单词都有它的 POS。在弱监督标记的情况下,您可能只需使用 100 多个单词的非常小的语料库。你得到一些标注器,你用它来标注一个包含 1000 个单词的语料库,你训练一个标注器并用它来标注更大的语料库。显然,你必须比这更聪明,但这是一个好的开始。 (请参阅this paper 以获得更高级的自举标记器示例)
注意:弱监督学习也可以指带有噪声标签的学习(这样的标签可以但不需要是自举的结果)
【讨论】:
【讨论】:
正如 Jirka 所描述的,弱监督需要在小型标记数据集上进行初始(监督)训练,在更大的集合上进行预测,以及(无监督)将积极识别的实例(或其特征)合并到模型中(通过在扩大的数据集上重新训练或通过模型的直接更新)。迭代(无监督)更新的过程,直到达到某个目标。显然,如果初始预测器产生许多误报,这很容易出错,但在某些情况下,搜索空间可能会受到限制,因此通过弱监督获得的泛化不会(经常)失控,或者用户输入可以用于(弱)监督学习过程。为了提供一个在文本挖掘之外的、非常成功的互补示例,PSI-BLAST 迭代地细化蛋白质序列图谱以识别远距离同源物。在此paper 中可以找到有关在这种情况下这种方法可能出错的一个很好的概述。
【讨论】:
本文 [1] 定义了 3 种典型的弱监督类型:
[1] 周志华,弱监督学习简介,国家科学评论,第 5 卷,第 1 期,2018 年 1 月,第 44-53 页,https://doi.org/10.1093/nsr/nwx106
【讨论】: