原理介绍

attention
attention
attention
相关论文

Hierarchical Attention Networks for Document Classification
Word Encoder:
①给定一个句子si,例如 The superstar is walking in the street,由下面表示[wi1,wi2,wi3,wi4,wi5,wi6,wi1,wi7],我们使用一个词嵌入矩阵W将单词编码为向量
attention
使用双向GRU编码整个句子关于单词wit的隐含向量
attention
Word Attention:
给定一句话,并不是这个句子中所有的单词对个句子语义起同等大小的“贡献”,比如上句话“The”,“is”等,这些词没有太大作用,因此我们需要使用attention机制来提炼那些比较重要的单词,通过赋予权重以提高他们的重要性。
①通过一个MLP获取hit的隐含表示:
attention
②通过一个softmax函数获取归一化的权重:
attention
③计算句子向量:
通过每个单词获取的hit与对应权重αit乘积,然后获取获得句子向量
attention

相关文章:

猜你喜欢
  • 2021-08-01
  • 2022-12-23
  • 2022-12-23
  • 2021-04-04
  • 2021-05-29
相关资源
相似解决方案