什么是弱监督学习（自举）？答案

【问题标题】：What is weakly supervised learning (bootstrapping)?什么是弱监督学习（自举）？
【发布时间】：2013-09-27 11:55:13
【问题描述】：

我了解有监督学习和无监督学习之间的区别：

监督学习是一种使用标记数据“教授”分类器的方法。

无监督学习让分类器“自行学习”，例如，使用聚类。

但什么是“弱监督学习”？它如何对示例进行分类？

【问题讨论】：

标签： machine-learning classification

【解决方案1】：

更新答案

正如下面几位cmet所说，情况并不像我最初在2013年写的那么简单。

普遍接受的观点是

弱监管 - 带有嘈杂标签的监管 (wikipedia)
半监督 - 只有一部分训练数据有标签 (wikipedia)

还有一些分类更符合我原来的答案，例如Zhi-Hua Zhou's 2017 A brief introduction to weakly supervised learning认为弱监督是一个总称

不完全监督 - 只有一部分训练数据有标签（同上）
不精确监督 - 仅使用粗粒度标签给出训练数据时调用
不准确监督 - 给定标签并不总是真实的（上面的监督较弱）。

原答案

简而言之：在弱监督学习中，您使用标记数据的数量有限。

如何选择这些数据，以及具体如何处理这些数据取决于方法。一般来说，您使用有限数量的数据，这些数据很容易获得和/或产生真正的影响，然后学习其余的数据。我认为 bootstrapping 是一种可用于弱监督学习的方法，但正如 Ben 下面的评论所示，这不是一个普遍接受的观点。

请参阅，例如 Chris Bieman's 2007 dissertation 以获得很好的概述，它说明了以下关于引导/弱监督学习的内容：

引导，也称为自我训练，是一种学习形式旨在使用更少的训练示例，因此有时称为弱监督。引导从一些培训开始示例，训练分类器，并使用被认为是积极的此分类器产生的用于再训练的示例。作为一组训练样本增加，分类器改进，前提是不太多的负面例子被错误地分类为正面，这可能导致性能下降。

例如，在词性标注的情况下，通常会在 10,000 个单词上训练一个 HMM（或最大熵或其他）标注器，每个单词都有它的 POS。在弱监督标记的情况下，您可能只需使用 100 多个单词的非常小的语料库。你得到一些标注器，你用它来标注一个包含 1000 个单词的语料库，你训练一个标注器并用它来标注更大的语料库。显然，你必须比这更聪明，但这是一个好的开始。（请参阅this paper 以获得更高级的自举标记器示例）

注意：弱监督学习也可以指带有噪声标签的学习（这样的标签可以但不需要是自举的结果）

【讨论】：

感谢您的回复。我没有完全得到最后一部分。唯一的区别是您在较小的数据集上训练“机器”？
您在一个小数据集上进行训练，然后将其应用于更大的语料库，然后在更大的语料库上重新训练。
这是自举的例子，但并不是真正的弱监督学习（或者至少，我从未听说过自举称为弱监督学习）。我猜这只是表明，如果它们的定义不明确，使用这些术语几乎没有什么好处。
我认为这是不对的。弱监督学习是当你的每个训练数据点都被部分注释（不完整的真实信息）时，你的语料库大小是无关紧要的。
我认为 Tudor Achim 的答案是正确的选择，而这个答案并不重要。弱监督学习当然不仅仅是在有限数量的标记数据上进行训练。

【解决方案2】：

弱监管是带有嘈杂标签的监管。例如，引导程序，其中引导程序可能会错误地标记某些示例。
远程监督是指不直接标记示例的训练信号；例如，从问答数据集中学习语义解析器。
半监督学习是指您拥有部分标记和部分未标记的数据集。
全监督学习是指每个数据点都有真实标签。

【讨论】：

这应该是最佳答案，因为它解开了不同的术语。但是，我会说引导不应该只是在弱监督下，因为它更像是一种可以被任何人使用的技术：距离监督引导，对间接标记的示例进行再训练，在半监督中使用“伪- labeling" 对未标记示例进行监督训练，或者在完全监督下对错误示例进行训练

【解决方案3】：

正如 Jirka 所描述的，弱监督需要在小型标记数据集上进行初始（监督）训练，在更大的集合上进行预测，以及（无监督）将积极识别的实例（或其特征）合并到模型中（通过在扩大的数据集上重新训练或通过模型的直接更新）。迭代（无监督）更新的过程，直到达到某个目标。显然，如果初始预测器产生许多误报，这很容易出错，但在某些情况下，搜索空间可能会受到限制，因此通过弱监督获得的泛化不会（经常）失控，或者用户输入可以用于（弱）监督学习过程。为了提供一个在文本挖掘之外的、非常成功的互补示例，PSI-BLAST 迭代地细化蛋白质序列图谱以识别远距离同源物。在此paper 中可以找到有关在这种情况下这种方法可能出错的一个很好的概述。

【讨论】：

【解决方案4】：

本文 [1] 定义了 3 种典型的弱监督类型：

不完全监督，其中只有一部分训练数据带有标签；（我觉得这和半监督一样）
不精确的监督，训练数据只给出粗粒度的标签；
和不准确的监督，其中给定的标签并不总是真实的。

[1] 周志华，弱监督学习简介，国家科学评论，第 5 卷，第 1 期，2018 年 1 月，第 44-53 页，https://doi.org/10.1093/nsr/nwx106

【讨论】：