2018年,Gu等人提出了一种新的机器翻译模型,这种模型不用再从左到右的顺序依次翻译了,使得翻译过程可以并行化。

模型本身依然是基于Transformer的,不同的是在测试时可以并行解码。模型结构如下图所示:

CH2-NLG应用之【机器翻译non-auto-regressive版】

把并行计算结果时,不同位置之间的词独立带来的问题归结为训练样本中存在 multimodal target distribution的问题。找到一个很好的切入点,并通过引入隐含变量来降低mode的空间,帮助decoder进行decode。同时论文中采用knowledge distillation的方式,利用auto-regressive model来帮助模型进行训练,也是一个非常好的做法。最终使得,模型在non-auto-regressive的情况下,达到了auto-regressive模型的效果。

TODO具体的论文阅读

相关文章:

  • 2022-01-11
  • 2021-10-23
  • 2021-05-31
  • 2021-06-22
  • 2022-01-28
  • 2022-01-06
猜你喜欢
  • 2022-01-05
  • 2021-10-20
  • 2021-11-21
  • 2022-12-23
  • 2021-10-18
  • 2021-06-07
相关资源
相似解决方案