MultiheadAttention 的可学习参数个数

【问题标题】：Number of learnable parameters of MultiheadAttentionMultiheadAttention 的可学习参数个数
【发布时间】：2021-05-16 05:03:03
【问题描述】：

在测试时（使用 PyTorch 的 MultiheadAttention），我注意到增加或减少多头注意力的头数不会改变我模型的可学习参数的总数。

这种行为正确吗？如果是这样，为什么？

头的数量不应该影响模型可以学习的参数数量吗？

【问题讨论】：

【解决方案1】：

多头注意力的标准实现将模型的维度除以注意力头的数量。

具有单个注意力头的维度模型 d 会将嵌入投影到 d 维查询、键和值张量的单个三元组（每个投影计数 d² 个参数，不包括偏差，总共 3d²)。

具有 k 个注意力头的相同维度的模型会将嵌入投影到 d/k 维查询、键和值张量（每个投影计算 d×d/k=d²/k 个参数，不包括偏差，总共 3kd²/k=3d²）。

参考资料：

来自原始论文：

您引用的 Pytorch 实现：

【讨论】：