【问题标题】:What is weakly supervised learning (bootstrapping)?什么是弱监督学习(自举)?
【发布时间】:2013-09-27 11:55:13
【问题描述】:

我了解有监督学习和无监督学习之间的区别:

监督学习是一种使用标记数据“教授”分类器的方法。

无监督学习让分类器“自行学习”,例如,使用聚类。

但什么是“弱监督学习”?它如何对示例进行分类?

【问题讨论】:

    标签: machine-learning classification


    【解决方案1】:

    更新答案

    正如下面几位cmet所说,情况并不像我最初在2013年写的那么简单。

    普遍接受的观点是

    • 监管 - 带有嘈杂标签的监管 (wikipedia)
    • 监督 - 只有一部分训练数据有标签 (wikipedia)

    还有一些分类更符合我原来的答案,例如Zhi-Hua Zhou's 2017 A brief introduction to weakly supervised learning认为弱监督是一个总称

    • 不完全监督 - 只有一部分训练数据有标签(同上)
    • 不精确监督 - 仅使用粗粒度标签给出训练数据时调用
    • 不准确监督 - 给定标签并不总是真实的(上面的监督较弱)。

    原答案

    简而言之:在弱监督学习中,您使用标记数据的数量有限。

    如何选择这些数据,以及具体如何处理这些数据取决于方法。一般来说,您使用有限数量的数据,这些数据很容易获得和/或产生真正的影响,然后学习其余的数据。我认为 bootstrapping 是一种可用于弱监督学习的方法,但正如 Ben 下面的评论所示,这不是一个普遍接受的观点。

    请参阅,例如 Chris Bieman's 2007 dissertation 以获得很好的概述,它说明了以下关于引导/弱监督学习的内容:

    引导,也称为自我训练,是一种学习形式 旨在使用更少的训练示例,因此有时 称为弱监督。引导从一些培训开始 示例,训练分类器,并使用被认为是积极的 此分类器产生的用于再训练的示例。作为一组 训练样本增加,分类器改进,前提是不 太多的负面例子被错误地分类为正面,这可能 导致性能下降。

    例如,在词性标注的情况下,通常会在 10,000 个单词上训练一个 HMM(或最大熵或其他)标注器,每个单词都有它的 POS。在弱监督标记的情况下,您可能只需使用 100 多个单词的非常小的语料库。你得到一些标注器,你用它来标注一个包含 1000 个单词的语料库,你训练一个标注器并用它来标注更大的语料库。显然,你必须比这更聪明,但这是一个好的开始。 (请参阅this paper 以获得更高级的自举标记器示例)

    注意:弱监督学习也可以指带有噪声标签的学习(这样的标签可以但不需要是自举的结果)

    【讨论】:

    • 感谢您的回复。我没有完全得到最后一部分。唯一的区别是您在较小的数据集上训练“机器”?
    • 您在一个小数据集上进行训练,然后将其应用于更大的语料库,然后在更大的语料库上重新训练。
    • 这是自举的例子,但并不是真正的弱监督学习(或者至少,我从未听说过自举称为弱监督学习)。我猜这只是表明,如果它们的定义不明确,使用这些术语几乎没有什么好处。
    • 我认为这是不对的。弱监督学习是当你的每个训练数据点都被部分注释(不完整的真实信息)时,你的语料库大小是无关紧要的。
    • 我认为 Tudor Achim 的答案是正确的选择,而这个答案并不重要。弱监督学习当然不仅仅是在有限数量的标记数据上进行训练。
    【解决方案2】:
    • 弱监管是带有嘈杂标签的监管。例如,引导程序,其中引导程序可能会错误地标记某些示例。
    • 远程监督是指不直接标记示例的训练信号;例如,从问答数据集中学习语义解析器。
    • 半监督学习是指您拥有部分标记和部分未标记的数据集。
    • 全监督学习是指每个数据点都有真实标签。

    【讨论】:

    • 这应该是最佳答案,因为它解开了不同的术语。但是,我会说引导不应该只是在弱监督下,因为它更像是一种可以被任何人使用的技术:距离监督引导,对间接标记的示例进行再训练,在半监督中使用“伪- labeling" 对未标记示例进行监督训练,或者在完全监督下对错误示例进行训练
    【解决方案3】:

    正如 Jirka 所描述的,弱监督需要在小型标记数据集上进行初始(监督)训练,在更大的集合上进行预测,以及(无监督)将积极识别的实例(或其特征)合并到模型中(通过在扩大的数据集上重新训练或通过模型的直接更新)。迭代(无监督)更新的过程,直到达到某个目标。显然,如果初始预测器产生许多误报,这很容易出错,但在某些情况下,搜索空间可能会受到限制,因此通过弱监督获得的泛化不会(经常)失控,或者用户输入可以用于(弱)监督学习过程。为了提供一个在文本挖掘之外的、非常成功的互补示例,PSI-BLAST 迭代地细化蛋白质序列图谱以识别远距离同源物。在此paper 中可以找到有关在这种情况下这种方法可能出错的一个很好的概述。

    【讨论】:

      【解决方案4】:

      本文 [1] 定义了 3 种典型的弱监督类型:

      • 不完全监督,其中只有一部分训练数据带有标签; (我觉得这和半监督一样)
      • 不精确的监督,训练数据只给出粗粒度的标签;
      • 不准确的监督,其中给定的标签并不总是真实的。

      [1] 周志华,弱监督学习简介,国家科学评论,第 5 卷,第 1 期,2018 年 1 月,第 44-53 页,https://doi.org/10.1093/nsr/nwx106

      【讨论】:

        猜你喜欢
        • 2010-12-22
        • 2014-04-20
        • 2013-03-24
        • 2019-04-16
        • 2021-10-17
        • 2019-02-20
        • 2013-12-24
        • 2018-10-01
        • 2019-06-04
        相关资源
        最近更新 更多