【发布时间】:2020-03-22 16:02:35
【问题描述】:
我正在寻找一些研究论文或书籍,它们对监督和无监督学习有很好的基本定义。这样我就可以在我的项目中引用这些定义。
非常感谢。
【问题讨论】:
标签: machine-learning deep-learning unsupervised-learning supervised-learning
我正在寻找一些研究论文或书籍,它们对监督和无监督学习有很好的基本定义。这样我就可以在我的项目中引用这些定义。
非常感谢。
【问题讨论】:
标签: machine-learning deep-learning unsupervised-learning supervised-learning
我会参考以下书籍:人工智能:现代方法(第 3 版)第 3 版,作者:Stuart Russell 和 Peter Norvig。在第 18 章和第 693 页及以后有更详细的有监督和无监督学习的分析。关于无监督学习:
在无监督学习中,代理学习输入中的模式 即使没有提供明确的反馈。 最常见的无监督学习任务是聚类: 检测可能有用的输入示例集群。 例如,出租车代理可能会逐渐形成一个概念 “交通好日子”和“交通不好日子” 由老师给出每个标记的示例
在受监督时:
在监督学习中,代理观察一些示例输入-输出 对 并学习一个从输入映射到输出的函数。在上面的组件 1 中, 输入是感知,输出由老师提供 谁说“刹车!”或“左转”。在组件 2 中,输入是相机 图像和输出再次来自一位说“那是一辆公共汽车”的老师。 3、制动理论是由状态和制动动作组成的函数 以英尺为单位的停止距离。在这种情况下,输出值可用 直接来自代理人的感知(事后);环境 是老师。
【讨论】:
Christopher M. Bishop,“模式识别和机器学习”,第 3 页(重点是我的)
训练数据包含输入向量示例及其对应目标向量的应用称为监督学习问题...
在其他模式识别问题中,训练数据由一组输入向量 x 组成,没有任何对应的目标值。此类无监督学习问题的目标可能是发现数据中的相似示例组, 其中称为聚类,或确定输入空间内数据的分布,称为密度估计,或将数据从高维空间向下投影到用于可视化的两个或三个维度。
尽你所能。基本上,最显着的区别是我们是否有标签 wrt。我们希望学习模型进行优化。如果我们没有一些标签,它仍然可以被描述为弱监督学习。如果没有可用的标签,剩下的就是在数据中找到一些结构。
【讨论】:
感谢@Pavel Tyshevskyi 的回答。你的答案很完美,但对于像我这样的初学者来说,这似乎有点难以理解。
经过一个小时的搜索,我在“机器学习傻瓜,IBM 限量版”一书中找到了自己的答案版本,位于第 1 章“理解机器学习”的“机器学习方法”部分。它的定义更简单,并且有示例可以帮助我更好地理解。本书链接:Machine Learning For Dummies, IBM Limited Edition
监督学习
监督学习通常始于一组既定的数据,并且对这些数据的分类方式有一定的了解。监督学习旨在发现可应用于分析过程的数据模式。该数据具有定义数据含义的标记特征。例如,可能有数百万张动物的图像,并包含对每种动物的解释,然后您可以创建一个机器学习应用程序来区分一种动物和另一种动物。通过标记有关动物类型的这些数据,您可能拥有数百个不同物种的类别。由于数据的属性和含义已被识别,因此正在训练建模数据的用户可以很好地理解它,以便它适合标签的细节。标签连续时,为回归;当数据来自一组有限的值时,它被称为分类。本质上,用于监督学习的回归可以帮助您了解变量之间的相关性。监督学习的一个例子是天气预报。通过使用回归分析,天气预报将已知的历史天气模式和当前条件考虑在内,以提供对天气的预测。
使用预处理的示例训练算法,此时,使用测试数据评估算法的性能。有时,无法在更大的数据群中检测到在数据子集中识别的模式。如果模型适合仅表示训练子集中存在的模式,则会产生一个称为过度拟合的问题。过度拟合意味着您的模型针对您的训练数据进行了精确调整,但可能不适用于大量未知数据。为了防止过度拟合,需要针对不可预见或未知的标记数据进行测试。为测试集使用不可预见的数据可以帮助您评估模型在预测结果和结果方面的准确性。监督训练模型广泛适用于各种业务问题,包括欺诈检测、推荐解决方案、语音识别或风险分析。
无监督学习
当问题需要大量未标记的数据时,无监督学习最适合。例如,社交媒体应用程序,如 Twitter、Instagram、Snapchat 和.....
【讨论】: