【问题标题】:Is supervised learning synonymous to classification and unsupervised learning synonymous to clustering?监督学习是分类的同义词,无监督学习是聚类的同义词吗?
【发布时间】:2015-03-17 15:48:15
【问题描述】:

我是机器学习的初学者,最近阅读了有关有监督和无监督机器学习的文章。看起来监督学习是分类的同义词,无监督学习是聚类的同义词,是吗?

【问题讨论】:

  • 不,你不能这么说。分类和回归是有监督的机器学习技术。聚类是一种无监督的机器学习技术。我认为您不能将它们用作同义词。虽然我同意无监督学习和聚类有时可以互换使用。
  • 有无监督分类和有监督聚类。

标签: machine-learning classification cluster-analysis supervised-learning unsupervised-learning


【解决方案1】:

没有。

监督学习是指您知道正确答案(目标)。根据它们的类型,它可能是classification(分类目标)、regression(数字目标)或learning to rank(序数目标)(此列表绝不完整,可能还有其他类型我忘记了或不知道)。

相反,在无监督学习环境中,我们不知道正确答案,而是尝试从数据中推断、学习一些结构。无论是聚类数还是低维近似(dimensionality reduction,实际上,人们可能会将聚类视为极端的一维降维情况)。同样,这可能与完整性相去甚远,但总体思路是关于隐藏结构,我们试图从数据中发现。

【讨论】:

    【解决方案2】:

    监督学习是指您拥有标记的训练数据。换句话说,您有一个明确的目标来优化您的方法。

    典型的(监督)学习任务是分类和回归:学习预测分类(分类)、数字(回归)值或排名(学习排名)。

    Unsupservised learning 是一个奇怪的术语。因为大多数时候,这些方法并没有“学习”任何东西。因为他们会从中学到什么?你没有训练数据?

    有很多无监督方法不适合“学习”范式。这包括降维方法,例如 PCA(远远早于任何“机器学习”——PCA 是在 1901 年提出的,远早于计算机!)。其中许多只是数据驱动的统计数据(与参数化统计数据相反)。这包括大多数聚类分析方法、异常值检测……为了理解这些,最好跳出“学习”的心态。许多人难以理解这些方法,因为他们总是以学习中常见的“最小化目标函数 f”思维方式思考。

    以 DBSCAN 为例。最流行的聚类算法之一。它不适合学习范式。它可以很好地解释为图论结构:(密度)连通分量。但它不会优化任何目标函数。它计算关系的传递闭包;但没有最大化或最小化函数。

    APRIORI 类似地发现频繁项集;出现次数超过 minsupp 的项目组合,其中 minsupp 是用户参数。这是一个非常简单的定义;但是当您拥有大量数据时,搜索空间可能会非常大。蛮力方法无法在可接受的时间内完成。因此 APRIORI 使用巧妙的搜索策略来避免不必要的硬盘访问、计算和内存。但学习中没有“更坏”或“更好”的结果。结果是否正确(完整)或不正确 - 无需对结果进行优化(仅在算法运行时)。

    将这些方法称为“无监督学习”是在将它们挤压成一种它们不属于的思维模式。他们没有“学习”任何东西。既不优化功能,也不使用标签,也不使用任何类型的反馈。他们只是从数据库中选择一组对象:APRIORI 选择同时经常有 1 的列; DBSCAN 在密度图中选择连通分量。结果要么正确,要么不正确。

    一些(但不是全部)无监督方法可以形式化为优化问题。在这一点上,它们变得类似于流行的监督学习方法。例如,k-means 是一个最小化问题。 PCA 也是一个最小化问题 - 实际上与线性回归密切相关。但情况恰恰相反。许多机器学习任务都转化为优化问题;并且可以使用通用统计工具来解决,这些工具恰好在机器学习(例如线性规划)中非常流行。然后将所有“学习”部分包装到数据转换方式中,然后再将其输入优化器。在某些情况下,例如 PCA,发现了一种计算最优解的非迭代方法(在 1901 年)。因此,在这些情况下,您根本不需要通常的优化锤。

    【讨论】:

      猜你喜欢
      • 2017-02-16
      • 2019-06-04
      • 2014-04-20
      • 2013-03-24
      • 2019-02-20
      • 2019-04-16
      • 2021-10-17
      • 2018-12-31
      • 2018-12-09
      相关资源
      最近更新 更多