一、绪论
为什么人类的本质是复读机?
浅层次的理解如同QQ/wecaht消息的 +1 操作;
深层次的理解,就得由一款游戏《信任的进化》。游戏中设置了几个角色:
- 复读机:特点是会选择和玩家之前一模一样的选择。假如玩家一直合作,他也会一直合作;假如玩家一直欺骗,他也会一直欺骗。
- 千年老油条:永远不合作;
- 万年小粉红:永远合作;
- 黑帮老铁:如果第一轮合作,那么后面都合作;如果第一轮欺骗,那么后面都欺骗的。
如同你上学读书十几年,实际上每天都在复读前人的理论知识学说概念,你所学的每一个公式,你背诵的每一首诗,都是在复读前人的成果,也就是人类的智慧,人类的文明。
Scenery 基于复读机这一点,认为人的行为是可以预测的,正如机器学习使用数据进行预测。
1.1 基本术语
- 数据集(data set), 示例(instance)
- 属性(attribute)= 特征(feature)
- 属性值(attribute value),属性空间(attribute space)
- 特征向量(feature vector)
一般地,令 表示包含 个示例的数据集,每个示例由 个属性描述,则每个示例 是 维样本空间 中的一个向量,,其中 是 在第 个属性上的取值, 称为 的维数。
训练数据(training data)中的每个样本称为一个 训练样本(training sample),训练样本的集合组成训练集(training set)。
学得的模型对应了关于数据的某种潜在得到规律,即“假设”(hypothesis); 这种潜在规律自身,称为“真相”(ground-truth), 训练过程是为了逼近真相。
-
样例-标记: 表示第 个样例,其中 是示例 的标记, 是所有标记的集合,称为 标记空间(label space) ;
-
分类(classification): 预测的是离散值;有 二分类(binary classificaton) 和 多分类(multi-class classification);
-
回归(regression): 预测的值是连续的;
-
聚类(clustering): 将训练样本分成若干组;
-
学习任务分类:
-
学习任务分类:
- 泛化(generalization)能力 :机器学习得到的模型在未经训练过的样本上的表现能力;
1.2 假设空间与归纳偏好
把学习过程看做是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配(fit)的假设;
- 归纳偏好:学习算法在庞大的假设空间中选择“正确的”的模型;采用 ”奥卡姆剃刀“(Occam’s razor) 原则:若有多个假设与观察一致,则选择最简单的那个,如图1.3,选择曲线A.
但该原则并不通用,如对图1.4,(a)模型A简单且优于B,(b)模型A简单,但B性能优于A.
- “没有免费的午餐”(No Free Lunch Theorem, NFL)定理的前提是所有问题出现的机会相同或者问题同等重要。但实际问题通常并不是这样,针对具体的问题,有相应的最优算法,脱离具体问题而空泛地讨论何种算法更好没有意义。( ps:横看成岭侧成峰么)
1.3 发展历程
-
1950s,基于神经网络的 连接主义(connectionism) 学习开始出现:F.Rosenblatt的感知机(Perceptron)、B.Widrow的Adaline等;
-
1960s-1970s,基于逻辑表示的 符号主义(symbolism) 学习技术:P.Winston 的结构学习系统、R.S.Michalski等的基于逻辑的归纳学习系统、E.B.Hunt等的概念学习系统;以决策理论为基础的学习技术以及强化学习技术:N.J.Nilson的学习机器;
-
1980s,从样例中学习的主流是 符号主义学习:决策树、基于逻辑的学习;
-
1990s前期,从样例中学习的主流变为 基于神经网络的连接主义学习;
-
1990s中期,主流是统计学习(statistical learning):支持向量机(Support Vector Machine, SVM)、核方法(kernel methods);
-
2000s,深度学习,多层神经网络。