目录
一、机器学习定义
“机器学习是对能通过经验自动改进的计算机算法的研究”
二、机器学习和统计学习名词
统计学 机器学习
———————————–————–
Estimation(估计) Learning(学习)
Classifier(分类器) Hypothesis(假设)
Data point(数据点) Example/Instance(示例/实例)
Regression(回归) Supervised Learning(监督学习)
Classification(分类) Supervised Learning(监督学习)
Covariate(协变量) Featur(特征)
Response(响应) Label(标注)
二、监督学习
有标注数据:训练集包括输入变量x和输出变量y,预测y
三、无监督学习
无标注数据:训练集只包括输入变量x,预测模型函数对于x的概率
三、强化学习
强化学习方法:
四、半监督学习
- 少量标注数据,大量未标注数据
- 利用未标注数据的信息,辅助标注数据,进行监督学习
- 较低成本
五、主动学习
- 机器主动给出实例,教师进行标注
- 利用标注数据学习预测模型
六、统计学习
1、按算法分类
- 在线学习(online learning)
- 批量学习(batch learning)
2、按技巧分类
-
贝叶斯学习(Bayesian learning)
-
核方法(Kernel method)
- 核函数表示和学习非线性模型,将线性模型学习方法扩展到非线性模型的学习
- 不显式地定义输入空间到特征空间的映射,而是直接定义核函数,即映射之后在特征空间的内积
- 假设x1,x2是输入空间的任意两个实例,内积为<x1, x2>,输入空间到特征空间的映射为φ,
- 核方法在输入空间中定义核函数 K(x1, x2),使其满足 K(x1, x2) = < φ(x1), φ(x2)>
3、统计学习三要素
方法=模型+策略+算法
1)模型
2)策略
3)算法
- 如果最优化问题有显式的解析式,算法比较简单
- 但通常解析式不存在,就需要数值计算的方法
4、模型评估与模型选择
1)正则化
2)交叉验证
3)泛化能力
就是你看了一次黑色猫的照片,我给你说这是猫,你就能认识其他猫,即使大小不一样,颜色不一样,你也能认识出来
用数据集训练一个模型,他能在除了数据集以为的没有见过的数据上,取得很好的成绩,就是泛化能力
5、生成模型与判别模型
6、常见问题分类
1)分类问题
2)标注问题
3)回归问题
回归模型是表示从输入变量到输出变量之间映射的函数,回归问题的学习等价于函数拟合。
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解。