注意力机制的变体

硬性注意力 一般用的少 因为不可导 用的最多的是键值对注意力

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 多头注意力 和 结构化注意力 结构化的比较难

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 指针网络

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

自注意力模型:

使用RNN或者CNN 只建模了输入信息的局部依赖关系

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 如何处理非局部的依赖关系 可以使用全连接 但没有办法处理变长的问题

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 实例:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 QKV模式 Query-Key-Value

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 细节计算:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 多头自注意力模型:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

成功的使用:Transformer Encoder 序列建模

只有自注意力还不够 还需要其他操作

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 Transformer

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 Transformer 的流行版本为:bert

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

注意力机制和外部记忆3

外部记忆:

大脑中的记忆:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 不严格的类比

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

结构化的外部记忆:

记忆网络:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

外部记忆:定义为矩阵

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 记忆网络

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 神经图灵机:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

神经图灵机示例:控制器接收x_t还有上一个时刻的h_t-1还有上一个时刻从memory中读出的r_t-1 产生了q_t 查询向量 e_t是要外部memory中删去什么 a_t是要写入什么 h_t作为下一步的输入 利用注意力机制算打分a_t

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

可微分神经计算机 引入现代计算机的磁盘控制

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

基于神经动力学的联想记忆

联想记忆:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 hopfield网络

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

能量函数: w_ij同正同负 E能量就比较低 w_ij不同正负 E能量权重尽可能为0

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 检索过程 联想记忆:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 存储过程:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 使用联想记忆增加网络容量

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

 小结:

邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

相关文章:

  • 2021-12-29
  • 2021-08-12
  • 2022-01-23
  • 2021-12-13
  • 2021-06-04
  • 2021-11-13
  • 2021-12-19
  • 2021-08-25
猜你喜欢
  • 2021-04-27
  • 2021-06-24
  • 2021-11-07
  • 2021-05-13
  • 2021-10-17
  • 2021-11-28
  • 2021-09-21
相关资源
相似解决方案