邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

注意力机制的变体

硬性注意力一般用的少因为不可导用的最多的是键值对注意力

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

多头注意力和结构化注意力结构化的比较难

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

指针网络

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

自注意力模型：

使用RNN或者CNN 只建模了输入信息的局部依赖关系

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

如何处理非局部的依赖关系可以使用全连接但没有办法处理变长的问题

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

实例：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

QKV模式 Query-Key-Value

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

细节计算：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

多头自注意力模型：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

成功的使用：Transformer Encoder 序列建模

只有自注意力还不够还需要其他操作

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

Transformer

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

Transformer 的流行版本为：bert

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

注意力机制和外部记忆3

外部记忆：

大脑中的记忆：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

不严格的类比

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

结构化的外部记忆：

记忆网络：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

外部记忆：定义为矩阵

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

记忆网络

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

神经图灵机：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

神经图灵机示例：控制器接收x_t还有上一个时刻的h_t-1还有上一个时刻从memory中读出的r_t-1 产生了q_t 查询向量 e_t是要外部memory中删去什么 a_t是要写入什么 h_t作为下一步的输入利用注意力机制算打分a_t

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

可微分神经计算机引入现代计算机的磁盘控制

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

基于神经动力学的联想记忆

联想记忆：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

hopfield网络

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

能量函数： w_ij同正同负 E能量就比较低 w_ij不同正负 E能量权重尽可能为0

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

检索过程联想记忆：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

存储过程：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

使用联想记忆增加网络容量

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

小结：

邱锡鹏神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

相关文章：

2021-12-29
2021-08-12
2022-01-23
2021-12-13
2021-06-04
2021-11-13
2021-12-19
2021-08-25

猜你喜欢

2021-04-27
2021-06-24
2021-11-07
2021-05-13
2021-10-17
2021-11-28
2021-09-21

相关资源

下载 2023-01-29
下载 2022-12-11
下载 2021-06-06

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode