tensorflow 多头注意力层是自回归的吗？例如“tfa.layers.MultiHeadAttention”

【问题标题】：Is tensorflow multi-head attention layer autoregressive? e.g. "tfa.layers.MultiHeadAttention"tensorflow 多头注意力层是自回归的吗？例如“tfa.layers.MultiHeadAttention”
【发布时间】：2021-09-11 13:18:32
【问题描述】：

我研究了变压器架构中自回归与非自回归之间的区别。但我想知道 TensorFlow 中的注意力层是否实际上是自回归的？还是我需要实现自回归机制？

我没有看到任何因果选项（例如 causal=true/false）

我没有看到说明“tfa.layers.MultiHeadAttention”是否为自回归的文档

对此的任何想法将不胜感激。

【问题讨论】：

标签： tensorflow transformer attention-model autoregressive-models

【解决方案1】：

我找到了解决办法：

我发现 TensorFlow 有一个带有因果选项（它有一个布尔选项是 True 或 False）的单头注意力层，这是我的情况的最佳选择。图层代码链接如下：

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/keras/layers/dense_attention.py

该层添加了一个掩码，使得位置 i 不能关注位置 j > i。这可以防止信息从未来流向过去。

可以写成如下图：

tf.keras.layers.Attention(causal=True,dropout = 0.5)

【讨论】：