稀疏注意力 | Big Bird: Transformers for Longer Sequences

参考：「芝麻街」Big Bird : Sparse Attention 再填新成员

背景：

原来的注意力机制复杂度高，q需要和每个key点乘，复杂度是n*n。

存在内存问题，自然也就存在token长度限制。

full attention -> small attention ?

big bird = longformer + random attention

三要点：

Random attention

Window attention

Global Attention

三要点

Big Bird的稀疏注意力机制，将二次依赖降至线性，解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制，同时兼顾更长的上下文。Big Bird主要由三个部分组成:

global attention：一组参与序列的所有部分的g全局token（[cls])。
random attention：对于每个查询 $q_i$ ，每个查询将处理的r个随机key的集合。
window attention：一个本地邻居块w，以便每个节点处理其本地结构（attention自己和邻居）。

相关文章：

2022-01-12
2021-08-11
2021-12-27

猜你喜欢

2021-06-22
2021-06-09
2022-01-13
2021-08-16
2022-01-11
2021-12-17
2021-08-13

相关资源

下载 2023-03-24
下载 2021-11-02
下载 2021-11-03
下载 2021-06-05

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode