【发布时间】:2021-05-16 05:03:03
【问题描述】:
在测试时(使用 PyTorch 的 MultiheadAttention),我注意到增加或减少多头注意力的头数不会改变我模型的可学习参数的总数。
这种行为正确吗?如果是这样,为什么?
头的数量不应该影响模型可以学习的参数数量吗?
【问题讨论】:
标签: python python-3.x nlp pytorch attention-model
在测试时(使用 PyTorch 的 MultiheadAttention),我注意到增加或减少多头注意力的头数不会改变我模型的可学习参数的总数。
这种行为正确吗?如果是这样,为什么?
头的数量不应该影响模型可以学习的参数数量吗?
【问题讨论】:
标签: python python-3.x nlp pytorch attention-model