最近新买的书,迟了好几个月才开始看。
作者是阿里云工作的,所以书中的例子也是阿里的业务类。
算法:
分类算法
聚类算法
场景:人群划分,产品种类划分
回归算法
文本分析算法
推荐算法
关系图算法
第一部分
背景知识
机器胜过人类,关键因素是信息的量级和算法的深度。
步骤:
场景解析
数据预处理
特征工程
模型训练
模型评估
学习,离线/在线服务
常规算法
1,K邻近(KNN)
它的分类只考虑距离目标点最临近的 K 个点的类别。
2,朴素贝叶斯
Bayes 定理(英国数学家发明)描述两个条件概率的关系。
朴素贝叶斯是贝叶斯定理的简单实现。一种利用先验概率进行分类的分类器。
其基础建立在一个假设条件之上,即所有特征的条件之间相互独立。
一种监督学习算法。
常用于文本分类,垃圾邮件过滤等场景中。
监督学习就是说有了初始条件,打标好的数据做为训练样本。
训练样本数据分为两类:特征列和目标列。
参考:
3,逻辑回归
线性模型,监督算法
解决的问题:二分类和多分类问题
应用范围最广,50%。
对输入数据的要求:
需要对数据进行一些矩阵运算。所以入参矩阵的每个参数都要是数值型的。
4,支持向量机
监督分类算法。
直线叫分类机。
间隔点叫支持向量。
线性支持向量
非线性支持向量
线性:
近似线性可分
绝对线性可分
将数据映射到高维度空间去(维度转换)
是一种基于小样本学习的算法。
LIBSVM 是支持向量机在开源领域比较权威的一款工具包。
5,随机森林
一种由多个决策树组成的分类器。监督算法
通过多个弱决策树的结果来投票,判断最终结果。
参数调节的工作量大,如:树的深度,树的数量。对实验结果影响较大。
初步的读完此书,大部分内容只是浅尝而止,没有 读《大数据日知录架构与算法》写的详细。不过内容的划分还是不错的。“机器学习小述”这种名称更合适。实战就有点谈不上了。虽然有代码,但代码好像不能运行呢。