机器学习一:监督学习笔记

首先，分类学习是对于事物类别的一个判断，一般通常以二分类为例子，结果只有yes 或者no，并且是针对离散变量而言的（如花的分类，泰坦尼克号生还率的预测，良性/恶性肿瘤的预测，新闻分类，对手写数字的识别等等）。

但回归预测是对事物的一个发展趋势的一个预测，并且是针对连续变量（如波士顿房价预测）

1.线性分类器：通过累加计算每个维度的特征与各自权重的乘积来帮助决策。

2.支持向量机：两个空间间隔最小的不同类别的数据点（手写数字的辨别）

3.朴素贝叶斯：单独考虑每维被分类的条件概率，然后合并这些概率从而做出决策。（常用于海量互联网文本分类任务，垃圾邮件的筛选）

4.决策树：是一种非线性关系，通过选取不同的特征来搭建节点。通常用信息熵和基尼不纯性来度量（泰坦尼克号）

5.K近邻：寻找最近的K个值作为预测参考。（近朱者赤，近墨者黑）

6.集成模型：利用相同的训练数据同时独立搭建多个模型，通过少数服从多数来决策。

其中随机森林Random Forest Classifier 一般被作为基线系统 baseline system(一种对比评价其它模型性能的标准）

在线性学习当中，一般用精度accuarcy,召回率call （值越大越好），F1来衡量一个模型的性能的。

在回归预测中，一般用R-squared验证了回归方面的能力(值越大越好）,MAE平均绝对误差（值越小越好）,MSE均方误差（值越小越好）来衡量一个模型的性能的。