注意力机制的变体
硬性注意力 一般用的少 因为不可导 用的最多的是键值对注意力
多头注意力 和 结构化注意力 结构化的比较难
指针网络
自注意力模型:
使用RNN或者CNN 只建模了输入信息的局部依赖关系
如何处理非局部的依赖关系 可以使用全连接 但没有办法处理变长的问题
实例:
QKV模式 Query-Key-Value
细节计算:
多头自注意力模型:
成功的使用:Transformer Encoder 序列建模
只有自注意力还不够 还需要其他操作
Transformer
Transformer 的流行版本为:bert
注意力机制和外部记忆3
外部记忆:
大脑中的记忆:
不严格的类比
结构化的外部记忆:
记忆网络:
外部记忆:定义为矩阵
记忆网络
神经图灵机:
神经图灵机示例:控制器接收x_t还有上一个时刻的h_t-1还有上一个时刻从memory中读出的r_t-1 产生了q_t 查询向量 e_t是要外部memory中删去什么 a_t是要写入什么 h_t作为下一步的输入 利用注意力机制算打分a_t
可微分神经计算机 引入现代计算机的磁盘控制
基于神经动力学的联想记忆
联想记忆:
hopfield网络
能量函数: w_ij同正同负 E能量就比较低 w_ij不同正负 E能量权重尽可能为0
检索过程 联想记忆:
存储过程:
使用联想记忆增加网络容量
小结: