【发布时间】:2021-04-03 14:35:04
【问题描述】:
这个问题与新论文有关:Big Bird: Transformers for Longer Sequences。主要是关于稀疏注意力的实现(在Supplemental material, part D中指定)。目前,我正在尝试在 PyTorch 中实现它。
他们提出了一种通过阻止原始查询和关键矩阵来加速计算的新方法(见下文)
当您在步骤 (b) 中进行矩阵乘法运算时,您最终会得到类似的结果: .
所以我想知道:你将如何从该表示(上图)到稀疏矩阵(使用 PyTorch,见下文)?在论文中,他们只是说:“只需重塑结果”,我不知道有什么简单的方法可以做到这一点(特别是当我在不同位置有多个块时(参见第一张图片上的步骤 (c))。
解决方案: Huggingface 在 pytorch 中实现了 BigBird。
【问题讨论】:
标签: neural-network pytorch tensor bert-language-model attention-model