机器学习 (Machine Learning, ML) 是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

以上是官方套话,摘自百度百科。乍一看,读者会觉得机器学习很神奇,很难入门。但实际上,用一句更简单的话总结:机器学习是一个计算机程序,对于某个任务从经验中进行学习,并且会随着学习的越多做得越来越好。

简介

所以我们很容易就知道机器学习中最重要的两个东西

1、数据:有了数据才能够训练程序。只要掌握的数据质量高、数量大,就相当于拿到了训练出好的模型的钥匙????。这也就是为什么 Google 的人工智能会如此成功,因为他们手中掌握了大量的数据。
2、模型:也就是算法。特定的模型能够完成特定的任务。
 

机器学习的分类

机器学习大体上可以分为两类,一类是监督学习,一类是无监督学习
顾名思义,有监督学习就是通过大量已知的输入和输出相配对的数据(有标记的数据),让计算机从中学习规律,从而能针对新的输入做出合理的输出预测。无监督学习就是给计算机大量的无标记的输入数据,去分析它们内在的结构以及联系,从而去把这些数据自动分类,这就叫做聚类
细分下去,有监督学习可以分为两种。一种是回归学习,即输出的结果是一个连续的函数(比如给了一些列的点,让计算机通过回归学习找到拟合这些点的曲线);另外一种就是分类学习,即输出的结果是离散的(比如说判断一个人是不是坏人 :1 是坏人 ,0 不是坏人)
 

机器学习开发基本步骤

  • 数据采集和标记
  • 数据清洗:将数据进行单位统一
  • 特征选择:除去无用特征,选出有用特征给模型训练
  • 模型选择
  • 模型训练+测试:一般通过 8:2 划分数据 ,8 份为训练数据 ,2 份为测试数据;通过这种方法,我们能够评估一个模型的准确性
  • 模型优化

机器学习基本理论

过拟合和欠拟合现象

机器学习 - 基本概念

过拟合(也称为高方差)即模型完美的匹配了已知的数据,但是对新的数据的预测有较大的偏差。
欠拟合(也称为高偏差)即模型对现有的数据高度不匹配。[1]
 

成本函数 (Cost function)

成本是衡量模型与训练样本符合程度的指标。简单地理解,成本是针对所有的训练样本,模型拟合出来的值与训练样本的真实值的误差平均值,而成本函数就是成本与模型参数的函数关系。训练模型的过程,其实就是把成本函数最小化的一个过程。
例如机器学习 - 基本概念
就是一个典型的线性回归的成本函数(参见后文)。其中θ就是所谓的模型参数。

机器学习 - 基本概念

在线性回归中(上图),成本函数在图像上的含义就是使得各个点到图像上的距离达到最短。从图中可以看到,在不同模型参数的情况下 ,L2 明显使得各个点到它的距离最短。
至于为什么要用取平方的形式,是因为要使这个值不受个别极端数据影响而产生巨大波动(采用类似方差再取二分之一的方式来减小个别数据的影响),同时为了避免这个误差值是负数,取平方使它变成正数。
 

交叉验证数据集

其实更科学的划分数据的方法就是把数据划分为 6 : 2 : 2, 分别是训练数据集,交叉验证数据集,测试数据集。
在模型选择时,我们使用训练数据集来训练算法参数,用交叉验证数据集来验证参数。选择交叉验证数据集的成本最小的多项式来作为数据拟合模型,最后再用测试数据集来测试选择出来的模型针对测试数据集的准确性。
 

查准率和召回率

有时候,单纯的看模型对特定数据预测的准确度是不足以评价整个模型的。所以我们引入了查准率和召回率的概念。

机器学习 - 基本概念

查准率 (Precision):机器学习 - 基本概念
召回率 (Recall):机器学习 - 基本概念

Github user helloboyxxx: 查准率就是要返回一个分类的准确程度。所以我们需要用机器分类出来的(完全正确)的数量除以实际正确的数量。
例子 :50 个人考试 ,30 个人及格。机器判断出来的是 27 个及格的 ,23 个不及格的。所以应该用机器判断正确的 27 个除以 实际正确的 27 个与判断错误但是实际正确的 3 个的和。所以是 27 除以 30, 也就是 90% 的查准率

举个栗子:

机器学习 - 基本概念

在这个图片所示的情况下【以下都采用首字母简写】:
查准率 = TP / TP + FP
召回率 = TP / TP + FN
 

F1 Score

为了结合查准率和召回率来评估模型,我们引入了 F1 Score 这个概念:

机器学习 - 基本概念

其中 P 是查准率 ,R 是召回率。通过公式我们可以观察到,如果查准率或者召回率其中有一个为 0 的话,那么 F1 Score 也为 0。 理想状况下(查准率和召回率都为 1 的情况下 ),F1 Score 的值为 1。
 

本文由 @Serence @半人半疯 原创发布,未经作者许可,禁止转载。本文首发于机器学习 - 基本概念


  1. 来自AI 火箭营

相关文章: