Word Embedding论文阅读笔记
1. Google 2017—Attention is All You Need
主要内容
提出Transformer架构,用于机器翻译任务中。可替代RNN和Encoder-Decoder结构。仅使用attention机制(Self Attention + Multi-Head Attention),没有任何递归和卷积。
不仅在机器翻译任务中效果好,而且可并行,训练时间短。
架构
理解图中数据传递的意义(箭头);
理解attention的原理(见补充内容2);
位置信息通过Positional Encoding引入