The Evolved Transformer 学习笔记

通过neural architecture search的方法提升普通transformer，
速度比普通transformer提升两倍，
效果在机器翻译比普通transformer提升0.7 BLEU

设计出一些可能的神经网络结构，分别在测试集上评估效果

本文搜索空间包括两个stackable cell，一个在transformer模型的encoder，一个在transformer模型的decoder。

每个cell由NASNet-style block组成, 具体通过左右两个block将输入的hidden state转成左右两个hidden state再归并成为一个新的hidden state，作为self-attention的输入。

encoder包括6个block，decoder包括8个block。

block可以由MLP和各种CNN等组成（实际好像还有attention作为layer），里面的normalization, layer, output dimension and activation就是搜索空间

The Evolved Transformer 学习笔记