HAN

HAN分层注意网络
输入词向量序列后,通过词级别的Bi-GRU后,每个词都会有一个对应的Bi-GRU输出的隐向量h,再通过uwu_w向量与每个时间步的h向量点积得到attention权重,然后把h序列做一个根据attention权重的加权和,得到句子summary向量s2,每个句子再通过同样的Bi-GRU结构再加attention得到最终输出的文档特征向量v向量,然后v向量通过后级dense层再加分类器得到最终的文本分类结果。模型结构非常符合人的从词->句子->再到篇章的理解过程。

HAN保留了文章的完整结构,attention机制在对于模型的表达能力影响最大,甚至调整模型的L2损失远不如attention的影响大。同时又因为attention机制的可视化,使的HAN的可解释性变得很强。

相关文章:

  • 2021-06-27
  • 2021-12-19
  • 2021-09-20
  • 2021-04-18
  • 2021-11-01
  • 2021-04-11
猜你喜欢
  • 2021-07-05
  • 2021-12-22
  • 2021-07-26
  • 2021-05-30
  • 2021-08-30
  • 2021-07-15
相关资源
相似解决方案