大纲
Quadratic Hypotheses
线性模型虽然简单,
Circular Separable
虽然上面的数据点线性不可分,但是他可以用一个圆圈分开,我们从这里得到启发,是否我们可以设计Circular-PLA,Circular-Regression算法来进行分类
Circular Separable and Linear Separable
这种
已知x域中圆形可分在z域中是线性可分的,那么反过来,如果在z域中线性可分,是否在x域中一定是圆形可分的呢?答案是否定的。由于权重向量w取值不同,x域中的hypothesis可能是圆形、椭圆、双曲线等等多种情况。
General Quadratic Hypothesis Set
对于更加一般的二次假设,还应该包括一次项和常数项
这样子
Nonlinear Transform
Good Quadratic Hypothesis
如果我们的目标是学习一个好的二次假设,那么我们可以把目标转化为在
The Nonlinear Transform Steps
我们可以分为以下几步做
- 把原始数据从
X 空间通过一个函数ϕ(x) 转化到Z 空间,即{(xn,yn)}⇒{(zn,yn)} - 通过一个好的线性分类算法
A ,学习好的参数w̃ - 返回
g(x)=sign(w̃ Tϕ(x))
总结一下,非线性模型 = 非线性变换 + 线性模型
Price of Nonlinear Transform
虽然非线性变换,看起来很强大。好像很强大,让我们来分析非线性变换的代价
Computation/Storage Price
对于Q阶多项式,我们需要的时间复杂度和空间复杂度都是
Model Complexity Price
-
d̃ +1=O(Qd) - 自由变量的数量 =
d̃ +1≈dVC(HϕQ) -
dVC(HϕQ)≤d̃ +1
所以
Generalization Issue
我们又回到机器学习最本质的两个问题的权衡了,所以选择一个合适的
Structured Hypothesis Sets
Structured Hypothesis Sets
- 高阶次的假设包含低阶次的假设
- 高阶次的假设的VC维不小于低阶次的VC维
- 高阶次假设的训练误差不大于低阶次假设的训练误差
由上图可以看出,随着
在实践中,我们应该先尝试好的模型,看