HAN分层注意网络

HAN

HAN分层注意网络
输入词向量序列后，通过词级别的Bi-GRU后，每个词都会有一个对应的Bi-GRU输出的隐向量h，再通过 $u_w$ 向量与每个时间步的h向量点积得到attention权重，然后把h序列做一个根据attention权重的加权和，得到句子summary向量s2，每个句子再通过同样的Bi-GRU结构再加attention得到最终输出的文档特征向量v向量，然后v向量通过后级dense层再加分类器得到最终的文本分类结果。模型结构非常符合人的从词->句子->再到篇章的理解过程。

HAN保留了文章的完整结构，attention机制在对于模型的表达能力影响最大，甚至调整模型的L2损失远不如attention的影响大。同时又因为attention机制的可视化，使的HAN的可解释性变得很强。