【问题标题】:Is tensorflow multi-head attention layer autoregressive? e.g. "tfa.layers.MultiHeadAttention"tensorflow 多头注意力层是自回归的吗?例如“tfa.layers.MultiHeadAttention”
【发布时间】:2021-09-11 13:18:32
【问题描述】:

我研究了变压器架构中自回归与非自回归之间的区别。但我想知道 TensorFlow 中的注意力层是否实际上是自回归的?还是我需要实现自回归机制?

我没有看到任何因果选项(例如 causal=true/false)

我没有看到说明“tfa.layers.MultiHeadAttention”是否为自回归的文档

对此的任何想法将不胜感激。

【问题讨论】:

    标签: tensorflow transformer attention-model autoregressive-models


    【解决方案1】:

    我找到了解决办法:

    我发现 TensorFlow 有一个带有因果选项(它有一个布尔选项是 True 或 False)的单头注意力层,这是我的情况的最佳选择。图层代码链接如下:

    https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/keras/layers/dense_attention.py

    该层添加了一个掩码,使得位置 i 不能关注位置 j > i。这可以防止信息从未来流向过去。

    可以写成如下图:

    tf.keras.layers.Attention(causal=True,dropout = 0.5)
    

    【讨论】:

      猜你喜欢
      • 2021-02-08
      • 2020-10-18
      • 2022-01-03
      • 2022-10-15
      • 1970-01-01
      • 2022-12-04
      • 1970-01-01
      • 1970-01-01
      • 2021-08-24
      相关资源
      最近更新 更多