【发布时间】:2020-08-29 01:16:16
【问题描述】:
在 Transformer 模型中,https://arxiv.org/pdf/1706.03762.pdf 存在自注意力,它使用 softmax 对 Query (Q) 和 Key (K) 向量进行计算:
我正在尝试理解矩阵乘法:
Q = batch_size x seq_length x embed_size
K = batch_size x seq_length x embed_size
QK^T = batch_size x seq_length x seq_length
Softmax QK^T = Softmax (batch_size x seq_length x seq_length)
由于每个批次元素有 seq_length x seq_length 个值,如何计算 softmax?
对 Pytorch 计算的参考将非常有帮助。
干杯!
【问题讨论】:
-
此资源可能会有所帮助(它包含 PyTorch 中的代码)nlp.seas.harvard.edu/2018/04/03/attention.html
标签: machine-learning deep-learning pytorch transformer attention-model