attention - 爱码网

原理介绍

attention

相关论文

Hierarchical Attention Networks for Document Classification
Word Encoder：
①给定一个句子si,例如 The superstar is walking in the street，由下面表示[wi1,wi2,wi3,wi4,wi5,wi6,wi1,wi7]，我们使用一个词嵌入矩阵W将单词编码为向量

使用双向GRU编码整个句子关于单词wit的隐含向量

Word Attention:
给定一句话，并不是这个句子中所有的单词对个句子语义起同等大小的“贡献”，比如上句话“The”,“is”等，这些词没有太大作用，因此我们需要使用attention机制来提炼那些比较重要的单词，通过赋予权重以提高他们的重要性。
①通过一个MLP获取hit的隐含表示：

②通过一个softmax函数获取归一化的权重：

③计算句子向量：
通过每个单词获取的hit与对应权重αit乘积，然后获取获得句子向量
attention