读《机器学习实战应用》

最近新买的书，迟了好几个月才开始看。

作者是阿里云工作的，所以书中的例子也是阿里的业务类。

算法：

分类算法

聚类算法

场景：人群划分，产品种类划分

回归算法

文本分析算法

推荐算法

关系图算法

第一部分

背景知识

机器胜过人类，关键因素是信息的量级和算法的深度。

步骤：

场景解析

数据预处理

特征工程

模型训练

模型评估

学习，离线/在线服务

常规算法

1，K邻近（KNN）

它的分类只考虑距离目标点最临近的 K 个点的类别。

2，朴素贝叶斯

Bayes 定理（英国数学家发明）描述两个条件概率的关系。

朴素贝叶斯是贝叶斯定理的简单实现。一种利用先验概率进行分类的分类器。

其基础建立在一个假设条件之上，即所有特征的条件之间相互独立。

一种监督学习算法。

常用于文本分类，垃圾邮件过滤等场景中。

监督学习就是说有了初始条件，打标好的数据做为训练样本。

训练样本数据分为两类：特征列和目标列。

参考：

http://blog.csdn.net/li8zi8fa/article/details/76176597

3，逻辑回归

线性模型，监督算法

解决的问题：二分类和多分类问题

应用范围最广，50%。

对输入数据的要求：

需要对数据进行一些矩阵运算。所以入参矩阵的每个参数都要是数值型的。

4，支持向量机

监督分类算法。

直线叫分类机。

间隔点叫支持向量。

线性支持向量

非线性支持向量

线性：

近似线性可分

绝对线性可分

将数据映射到高维度空间去（维度转换）

是一种基于小样本学习的算法。

LIBSVM 是支持向量机在开源领域比较权威的一款工具包。

5，随机森林

一种由多个决策树组成的分类器。监督算法

通过多个弱决策树的结果来投票，判断最终结果。

参数调节的工作量大，如：树的深度，树的数量。对实验结果影响较大。

初步的读完此书，大部分内容只是浅尝而止，没有读《大数据日知录架构与算法》写的详细。不过内容的划分还是不错的。“机器学习小述”这种名称更合适。实战就有点谈不上了。虽然有代码，但代码好像不能运行呢。