Score Function Trick及其在机器学习中的应用
1、score function定义,就是说score function是求最大对数似然函数中让对数似然函数梯度等于0的梯度
强化学习之score function
就是说,求解最大似然问题就是求解score function
2、再对参数求导,就会得到Fisher Information ,FIM是SF的负导数。

3、SF的期望值是0
强化学习之score function
这一个性质可以用在有baseline的策略梯度中。

相关文章:

  • 2021-04-08
  • 2021-08-01
  • 2021-09-16
  • 2021-07-08
  • 2021-04-04
  • 2021-10-02
  • 2021-08-02
  • 2021-05-23
猜你喜欢
  • 2021-10-11
  • 2021-10-30
  • 2021-07-18
  • 2021-10-31
  • 2022-12-23
  • 2021-06-17
  • 2021-06-05
相关资源
相似解决方案