监督学习是分类的同义词，无监督学习是聚类的同义词吗？答案

【问题标题】：Is supervised learning synonymous to classification and unsupervised learning synonymous to clustering?监督学习是分类的同义词，无监督学习是聚类的同义词吗？
【发布时间】：2015-03-17 15:48:15
【问题描述】：

我是机器学习的初学者，最近阅读了有关有监督和无监督机器学习的文章。看起来监督学习是分类的同义词，无监督学习是聚类的同义词，是吗？

【问题讨论】：

不，你不能这么说。分类和回归是有监督的机器学习技术。聚类是一种无监督的机器学习技术。我认为您不能将它们用作同义词。虽然我同意无监督学习和聚类有时可以互换使用。
有无监督分类和有监督聚类。

标签： machine-learning classification cluster-analysis supervised-learning unsupervised-learning

【解决方案1】：

没有。

监督学习是指您知道正确答案（目标）。根据它们的类型，它可能是classification（分类目标）、regression（数字目标）或learning to rank（序数目标）（此列表绝不完整，可能还有其他类型我忘记了或不知道）。

相反，在无监督学习环境中，我们不知道正确答案，而是尝试从数据中推断、学习一些结构。无论是聚类数还是低维近似（dimensionality reduction，实际上，人们可能会将聚类视为极端的一维降维情况）。同样，这可能与完整性相去甚远，但总体思路是关于隐藏结构，我们试图从数据中发现。

【讨论】：

【解决方案2】：

监督学习是指您拥有标记的训练数据。换句话说，您有一个明确的目标来优化您的方法。

典型的（监督）学习任务是分类和回归：学习预测分类（分类）、数字（回归）值或排名（学习排名）。

Unsupservised learning 是一个奇怪的术语。因为大多数时候，这些方法并没有“学习”任何东西。因为他们会从中学到什么？你没有训练数据？

有很多无监督方法不适合“学习”范式。这包括降维方法，例如 PCA（远远早于任何“机器学习”——PCA 是在 1901 年提出的，远早于计算机！）。其中许多只是数据驱动的统计数据（与参数化统计数据相反）。这包括大多数聚类分析方法、异常值检测……为了理解这些，最好跳出“学习”的心态。许多人难以理解这些方法，因为他们总是以学习中常见的“最小化目标函数 f”思维方式思考。

以 DBSCAN 为例。最流行的聚类算法之一。它不适合学习范式。它可以很好地解释为图论结构：（密度）连通分量。但它不会优化任何目标函数。它计算关系的传递闭包；但没有最大化或最小化函数。

APRIORI 类似地发现频繁项集；出现次数超过 minsupp 的项目组合，其中 minsupp 是用户参数。这是一个非常简单的定义；但是当您拥有大量数据时，搜索空间可能会非常大。蛮力方法无法在可接受的时间内完成。因此 APRIORI 使用巧妙的搜索策略来避免不必要的硬盘访问、计算和内存。但学习中没有“更坏”或“更好”的结果。结果是否正确（完整）或不正确 - 无需对结果进行优化（仅在算法运行时）。

将这些方法称为“无监督学习”是在将它们挤压成一种它们不属于的思维模式。他们没有“学习”任何东西。既不优化功能，也不使用标签，也不使用任何类型的反馈。他们只是从数据库中选择一组对象：APRIORI 选择同时经常有 1 的列； DBSCAN 在密度图中选择连通分量。结果要么正确，要么不正确。

一些（但不是全部）无监督方法可以形式化为优化问题。在这一点上，它们变得类似于流行的监督学习方法。例如，k-means 是一个最小化问题。 PCA 也是一个最小化问题 - 实际上与线性回归密切相关。但情况恰恰相反。许多机器学习任务都转化为优化问题；并且可以使用通用统计工具来解决，这些工具恰好在机器学习（例如线性规划）中非常流行。然后将所有“学习”部分包装到数据转换方式中，然后再将其输入优化器。在某些情况下，例如 PCA，发现了一种计算最优解的非迭代方法（在 1901 年）。因此，在这些情况下，您根本不需要通常的优化锤。

【讨论】：