multi-hop reasoning阅读理解,通过强化学习决定hop步数。

训练技巧:

    一般的baseline方法采用的是全局baseline,但是不同输入的hop步数不同,采用全局baseline没有区分。本文采用Constrastive Reward,对每个输入单独计算baseline,提高训练速度。

ReasoNet: Learning to Stop Reading in Machine Comprehension读书笔记

相关文章:

  • 2022-03-07
  • 2021-08-10
  • 2022-01-19
  • 2021-07-03
  • 2021-08-28
  • 2021-12-28
  • 2021-08-18
  • 2021-07-18
猜你喜欢
  • 2021-10-30
  • 2021-12-05
  • 2021-05-17
  • 2022-01-17
  • 2021-09-25
  • 2021-07-03
相关资源
相似解决方案