摘要

通过neural architecture search的方法提升普通transformer,
速度比普通transformer提升两倍,
效果在机器翻译比普通transformer提升0.7 BLEU

neural architecture search

设计出一些可能的神经网络结构,分别在测试集上评估效果

Search Space

本文搜索空间包括两个stackable cell,一个在transformer模型的encoder,一个在transformer模型的decoder。

每个cell由NASNet-style block组成, 具体通过左右两个block将输入的hidden state转成左右两个hidden state再归并成为一个新的hidden state,作为self-attention的输入。

encoder包括6个block,decoder包括8个block。

block可以由MLP和各种CNN等组成(实际好像还有attention作为layer),里面的normalization, layer, output dimension and activation就是搜索空间

The Evolved Transformer 学习笔记

最终结构

encoder:
The Evolved Transformer 学习笔记
decoder:
The Evolved Transformer 学习笔记
最终结构代码:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/evolved_transformer.py

相关文章:

  • 2021-09-09
  • 2021-04-11
  • 2022-12-23
  • 2021-11-02
  • 2021-11-07
  • 2023-03-21
  • 2021-05-19
猜你喜欢
  • 2022-02-01
  • 2021-05-25
  • 2021-07-03
  • 2021-12-01
  • 2022-12-23
  • 2021-05-02
相关资源
相似解决方案