Attention机制通过对encoder所有时间步的hidden state加权平均来得到背景变量。
【NLP复习】Attention机制
其中a就是softmax把Q跟K的值们归一化了
【NLP复习】Attention机制
  • 机器翻译:
    • Q是decoder每一步的hidden state
    • K是encoder每一步的hidden state
    • V=K
    • 通过Q跟K算出V中hidden states们的权重,让V中这些hidden state加权求和
  • 文本分类(self-Attention):
    • Q=K=V=句子各个词的embedding
  • 两种Attention机制的区别(求权重a时不同):
    • 【NLP复习】Attention机制

【参考资料】

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-06-07
  • 2021-08-19
  • 2021-06-07
  • 2021-05-24
  • 2021-08-22
  • 2021-06-16
猜你喜欢
  • 2022-12-23
  • 2021-07-23
  • 2021-06-13
  • 2021-06-17
  • 2021-04-24
  • 2021-09-22
相关资源
相似解决方案