1. 偏差和方差平衡

在线性回归中,对于同一个数据集,可以拟合出简单的线性模型学习理论之偏差与方差或者较为复杂一些的多项式学习理论之偏差与方差例如:

学习理论之偏差与方差

 

图中的训练样本是一致的,但是可以拟合出不同的模型。最右边图中拟合出的5阶多项式,并不见得就是一个好模型,虽然该模型能够准确预测出样本点的y值,因为这种模型过分拟合了训练样本(过拟合),当对非训练样本预测时,往往效果很糟糕,即由训练集拟合出的这个模型泛化能力很差。某个假设的泛化误差就是该假设用于预测新样本时的期望误差与其用于预测训练集样本的误差不一致。

而最左边的模型由于拟合程度不够,导致对训练集的预测都很糟糕(欠拟合),泛化误差也很大。由图中所画样本点很容易看出,y与x是非线性关系,即使我们用大量的数据拟合出来一个线性模型,这个模型仍然不能准确的拟合出数据结构特征。我们定义偏差(bias)对预期的泛化误差进行建模,那么最左边图中的线性模型存在较大偏差。

除了偏差,还可以用方差(variance)来衡量模型的泛化误差。特别是上面最右边的5阶模型,很有可能就是该模型就仅仅是对图中所示的几个样本(有限样本集)有效,而没有真正拟合出x和y之间的关系模式,对新的测试样本效果很差,因此得到的模型泛化误差同样很大。这时,我们就说模型的方差较大(可以形象理解为模型波动较大)。

所以,需要在偏置和方差之间加以平衡。当模型过于简单,参数较少,则偏差较大(但是方差较小),当模型过于复杂,参数很多,则方差较大(但是偏差较小)。因此,对于上面的例子,拟合出一个二次函数要比左右两端的模型都要好。

2. 预备知识

定理(联合边界)如果 A1, A2, ..., A是 个不同的事件(不一定互相独立),那么:

学习理论之偏差与方差

 

 

这是概率论中的一个公理,直观上很容易理解:k个不同事件并的发生概率小于k个事件各自发生的概率之和。

定理(Hoeffding不等式)如果Z1, ... Zm 是 m 个独立同分布的随机变量,且服从伯努利分布学习理论之偏差与方差,即学习理论之偏差与方差学习理论之偏差与方差,用学习理论之偏差与方差表示这些随机变量的均值,给定任意正数学习理论之偏差与方差,那么:

学习理论之偏差与方差

由概率论可知,学习理论之偏差与方差就是伯努利分布的期望,而学习理论之偏差与方差是通过m个样本得出的对学习理论之偏差与方差的估计,所以这个定理的意思是,随着样本数量m的增加,样本估计的均值学习理论之偏差与方差与期望的差别会越来越小。

下面会用这两个定理来证明一些很重要的学习理论。为了简化起见,这里讨论二分类问题,标签是学习理论之偏差与方差,所有讨论都可以泛化到其他问题,如回归和多分类问题。

给定训练集:学习理论之偏差与方差,所有样本独立同分布,均服从分布学习理论之偏差与方差. 定义训练误差(又叫经验风险或者经验误差)如下:

学习理论之偏差与方差

 

注意这里的符号“1{}”,表示如果{}里面的表达式为真,则1{}  = 1,否则为0,如1{3=2} = 0,1{3=3}=1.

所以这个定义就是计算被错分类的样本占所有样本的比例。

如果将学习理论之偏差与方差于训练集 S 联系起来,即训练集学习理论之偏差与方差的训练误差,就可以写为学习理论之偏差与方差. 再定义泛化误差:

学习理论之偏差与方差

 

这个定义的意思是,现在随机采样一个服从分布学习理论之偏差与方差的新样本(不是从训练集中随机选,而是重新采样),那么这个样本被错分的概率就是泛化误差。

考虑线性分类,令学习理论之偏差与方差,通过什么样的方式拟合参数学习理论之偏差与方差才合理呢?一种方法是最小化训练误差:

学习理论之偏差与方差

 

我们称这个过程为经验风险最小化(empirical risk minimization,ERM),拟合出的模型就是学习理论之偏差与方差. ERM是一种最基本的算法(逻辑回归算可以近似看做一种经验风险最小化)。

在我们的讨论学习理论时,将参数和假设从具体的问题中抽象出来会很有用。定义一个假设类学习理论之偏差与方差,它表示某一类问题对应的分类器的集合。对于线性分类,学习理论之偏差与方差就表示所有输入为学习理论之偏差与方差,决策边界为线性的分类器。更加广泛地说,如果我们学习一个神经网络,那么可以令学习理论之偏差与方差表示某种神经网络结构。

经验风险最小化现在可以被认为是在学习理论之偏差与方差的基础上进行,即学习算法在学习理论之偏差与方差中选出训练误差最小的假设:

学习理论之偏差与方差

 

3. 有限假设集(The case of finite 学习理论之偏差与方差

这一部分讨论有限假设集学习问题,在这个问题中,假设集学习理论之偏差与方差包含 k 个假设。因此学习理论之偏差与方差是一个包含 k 个函数的集合,这 k 个函数将学习理论之偏差与方差映射到{0, 1}.

对于任意一个给定的假设学习理论之偏差与方差,考虑伯努利随机变量学习理论之偏差与方差. 采样学习理论之偏差与方差,然后,令学习理论之偏差与方差.也即是说我们随机采取样本,用学习理论之偏差与方差来表示假设学习理论之偏差与方差是否错分了该样本。类似地,可以定义学习理论之偏差与方差学习理论之偏差与方差.由于训练集是由分布学习理论之偏差与方差中采样出的独立同分布样本组成,所以学习理论之偏差与方差学习理论之偏差与方差服从同一分布。

可以看出对随机样本错分的概率就是学习理论之偏差与方差(和学习理论之偏差与方差)的期望值(注意学习理论之偏差与方差不是训练集的元素,学习理论之偏差与方差是训练集的元素)。训练误差可以写为:

学习理论之偏差与方差

 

容易看出,学习理论之偏差与方差就是 m 个随机变量学习理论之偏差与方差的均值,所以学习理论之偏差与方差是由一个伯努利分布采样出来的一系列独立同分布变量,这个伯努利的分布的均值是学习理论之偏差与方差(因为上面讨论过学习理论之偏差与方差学习理论之偏差与方差服从同一分布,学习理论之偏差与方差的所服从分布的均值是学习理论之偏差与方差,所以学习理论之偏差与方差所服从分布的均值也是学习理论之偏差与方差),那么应用上面提到的Hoeffding不等式:

学习理论之偏差与方差

 

这表明,当 m 很大的时候,对于特定的假设学习理论之偏差与方差,训练误差和泛化误差非常接近(很高的概率),

但是,我们不只是想只保证某一个特定假设的训练误差和泛化误差非常接近,而是针对所有学习理论之偏差与方差同时有该结论成立,下面将证明之。

学习理论之偏差与方差表示事件学习理论之偏差与方差,已知对任意一个特定的学习理论之偏差与方差,有学习理论之偏差与方差成立,我们要证明的是对于所有的学习理论之偏差与方差i = 1, ... , m),有 m 个不等式学习理论之偏差与方差可以同时成立。利用联合边界:

学习理论之偏差与方差

 

用1 同时减去等式两边:

学习理论之偏差与方差

 

这个不等式的意思是,至少有学习理论之偏差与方差的概率,“学习理论之偏差与方差学习理论之偏差与方差的差值小于学习理论之偏差与方差”这个事件对所有学习理论之偏差与方差同时成立。这叫做一致收敛 的结果,因为

学习理论之偏差与方差这个界限是对所有学习理论之偏差与方差同时成立,而不是只对某一个假设成立。

继续,给定学习理论之偏差与方差和某个学习理论之偏差与方差,上面讨论的过程中都是说当 m 足够大的时候,就可以保证训练误差和泛化误差的差值小于学习理论之偏差与方差(任意小的正数)的概率至少为学习理论之偏差与方差(注意由上面讨论容易看出,m足够大的时候学习理论之偏差与方差是趋向0的,例如学习理论之偏差与方差就是一个学习理论之偏差与方差的特例)。到底m多大才和合适?

学习理论之偏差与方差,可以发现如果:

学习理论之偏差与方差那么就可以保证对于所有学习理论之偏差与方差学习理论之偏差与方差同时成立的概率至少是学习理论之偏差与方差. 这个界限给出了到底需要多少个训练样本,才能使的训练误差和泛化误差的差别很小。某个方法或者算法为了到达某种指标所采取的训练集的大小,也就是训练样本的个数被称为采样复杂度

对于学习理论之偏差与方差,固定m和学习理论之偏差与方差,可以解出学习理论之偏差与方差,又学习理论之偏差与方差,所以:

学习理论之偏差与方差

 

现在假设一致收敛成立,即对于所有学习理论之偏差与方差,有学习理论之偏差与方差成立。定义学习理论之偏差与方差学习理论之偏差与方差中可能最好的假设,为什么说是可能最好的假设呢?因为你是在集合学习理论之偏差与方差的基础上选择假设,但是真正最佳假设可能不在这个集合里面,但是对于这个集合中的假设而言,学习理论之偏差与方差就是最佳的。现在我们通过学习算法选出的假设为:学习理论之偏差与方差,有必要比较下学习算法选出的集合中的某一个假设学习理论之偏差与方差学习理论之偏差与方差

学习理论之偏差与方差

 

第一行用到了不等式学习理论之偏差与方差(利用了前面说的一致收敛成立的假设),第二,学习理论之偏差与方差是通过最小化学习理论之偏差与方差选择出来的,因此学习理论之偏差与方差,又学习理论之偏差与方差本身就是一个学习理论之偏差与方差的特例,所以学习理论之偏差与方差,第三行再次用到一致收敛假设。所以,可以看出,如果一致收敛成立,学习理论之偏差与方差的泛化误差最多与学习理论之偏差与方差中最好的假设学习理论之偏差与方差的泛化误差相差学习理论之偏差与方差

以定理的形式写出上面的结论:

定理: 令学习理论之偏差与方差,固定m和学习理论之偏差与方差,那么不等式:

学习理论之偏差与方差

 

成立的概率至少是学习理论之偏差与方差.

这个定理也量化出关于前面提到的偏差/方差平衡重的模型选择。特别地,假如我们有一个假设集学习理论之偏差与方差,现在扩大假设集学习理论之偏差与方差,对于学习理论之偏差与方差,那么第一项学习理论之偏差与方差只能减小(因为我们是在一个更大的函数集合中选出最小值),所以通过对一个更大的假设集学习之后,偏差(bias)只会减小。但是第二项学习理论之偏差与方差而言,假设集变大就意味着 k变大,该项显然会变大,这一项的变大就对应着增大假设集时,方差(variance)会变大。

通过固定学习理论之偏差与方差学习理论之偏差与方差,解出m,可以得到采样复杂度的界限:

推论 令学习理论之偏差与方差,固定学习理论之偏差与方差学习理论之偏差与方差,不等式学习理论之偏差与方差学习理论之偏差与方差成立的最小概率是学习理论之偏差与方差,那么将满足如下不等式:

学习理论之偏差与方差

 

4. 无限假设集(The case of infinite 学习理论之偏差与方差

上面对于有限假设集证明除了一些很有用的定理,但是对于很多假设集,我们可以提出无限多的假设函数,那么该假设集就是一个无限假设集。对于无限假设集是否与有限假设集存在类似的结论呢?

假设学习理论之偏差与方差有d个实数参数,在计算机中双精度(double-precision)浮点数是64位,假定我们参数都采用双精度表示,那么我们的假设集可包含多达学习理论之偏差与方差个不同的假设,从上一部分的最后一个推论,为了保证学习理论之偏差与方差成立的最小概率是学习理论之偏差与方差,必须满足:

学习理论之偏差与方差

 

可以说,固定学习理论之偏差与方差学习理论之偏差与方差了之后,需要的训练样本的数量与模型参数数量几乎是线性关系。

由上面的例子可以大致得出一个结论:如果我们想最小化训练误差(经验风险),为了在含有d个参数的假设集中学习出较好的模型,通常需要的训练样本数需与d成一个线性关系。

从这一点出发,需要注意,这些所有我们已经证明的理论是对采用经验风险最小化(ERM)的算法成立,注意经验风险就是训练误差,二者是同一个概念,所以对大多数采用ERM或者类似于ERM的判别式学习算法(discriminative learning algorithms),采用复杂度(即需要的训练样本数)与参数个数之间的线性依赖关系是成立的,但是对于并不是对所有判别式学习算法成立,关于非-ERM学习算法的理论仍在研究阶段。

上面的推理仍然难以令人满意,因为它依赖于假设集学习理论之偏差与方差的参数。下面进一步讨论,将会给出更多定义。

给定集合学习理论之偏差与方差(和训练集无关),学习理论之偏差与方差,如果对于任意一个标签集合学习理论之偏差与方差,总存在某个假设学习理论之偏差与方差使得学习理论之偏差与方差学习理论之偏差与方差)成立,那么就说学习理论之偏差与方差可分(shatters)学习理论之偏差与方差.

给定假设集学习理论之偏差与方差,我们来定义它的VC维(Vapnik-Chervonenkis dimension),写作学习理论之偏差与方差,它就是指能够被学习理论之偏差与方差分开的最大集合的大小。如果学习理论之偏差与方差能够分开任意大小的集合,就意味着学习理论之偏差与方差.

例如,考虑下面三个点的集合:

学习理论之偏差与方差

 

那么一个二维的线性假设集学习理论之偏差与方差学习理论之偏差与方差学习理论之偏差与方差)能分开上面的集合吗?答案是肯定的。对于这三个点的类别存在8中情况,如下图,可以看出线性分类器能够在0训练误差的情况下正确分开它们:

学习理论之偏差与方差

 

此外,很容易验证,不存在4个点的集合能被这个线性假设集可分,所以学习理论之偏差与方差可分的集合最大为3,因此学习理论之偏差与方差.

注意这里的VC维是3,即使存在3个点的集合,学习理论之偏差与方差仍然不可分该集合。例如,三个点在同一条直线上:

学习理论之偏差与方差

 

换句话说,VC维是3,就是只要存在一个3个点集合对于学习理论之偏差与方差可分就可以了,不要求针对所有3点的集合,要求学习理论之偏差与方差可分这些所有集合。所以下面,我们想要证明学习理论之偏差与方差至少为d的话,我们只需要找出至少一个大小为d的集合能被学习理论之偏差与方差分开即可。

下面的定理将是学习理论中最重要的定理.

定理 给定学习理论之偏差与方差,令学习理论之偏差与方差, 对于所有学习理论之偏差与方差,不等式:

学习理论之偏差与方差

 

成立的概率至少为学习理论之偏差与方差.

因此,学习理论之偏差与方差成立的概率也至少为学习理论之偏差与方差.

这表明,如果一个假设集的VC维是一个有限值,那么一致收敛成立的概率会随着m的增大而增大。同时,还可有以下推论:

推论 如果对于所有学习理论之偏差与方差学习理论之偏差与方差成立的概率不小于学习理论之偏差与方差,那么它满足学习理论之偏差与方差.

该推论表明,用学习理论之偏差与方差学习出一个较好的模型所需要的训练样本的数量与学习理论之偏差与方差的VC维成线性关系。可以证明,对于大多数假设集而言,VC维都和参数数量有着大致的线性关系。总结上述,可以得出结论:所需要的训练样本的数量总是和学习理论之偏差与方差的参数的数量呈现大致的线性关系。

 

相关文章:

  • 2022-01-09
  • 2021-12-02
猜你喜欢
  • 2021-05-29
  • 2021-08-08
  • 2021-12-01
  • 2021-10-16
  • 2021-06-19
  • 2021-07-06
相关资源
相似解决方案