现状:单一场景、 大量数据、大量算力
大数据+大算力在现阶段起到的作用:
1.更深更复杂的模型提升效果
2.大规模预训练技术和基于向量的表示学习获得广泛应用
2.自动化模型设计成为可能(谷歌5年前提出,AutoML)
一、人工设计模型和预训练大模型
人工设计非线性特征➡️机器自动学习特征(浅层神经网络)
两层神经网络:只要隐藏层足够深
深度模型的优势:用更少的神经元更高效地表示复杂函数,神经元可以进行重用
浅层网络加宽,深层网络深+宽
人工设计深度网络(Resnet)
基于不同的数据,设计不同的网络
从局部到非局部模型:
how to model long range interactions: attention
目前对Bert有很多变种,不做文本生成,做文本理解
GPT是language model,只有从左到右
二、针对特定任务和硬件的自动化模型设计
需要不同大小和算力的模型适用不同硬件设备,如手机、无人驾驶汽车等等,模型要与硬件进行适配。
即自动使用模型在进行适配的工作。
如人工设计小模型案例:mobileNet V3,将模型部署到手机上
机器和人工协作design的模型
三、神经网络的优化和过参数化理论简介