【发布时间】:2020-05-13 09:12:32
【问题描述】:
在 A2C(演员和评论家算法)中,权重通过方程式更新:
delta = TD 误差和
theta = theta + alpha*delta*[Grad(log(PI(a|s,theta)))] 和
w = w + beta*delta*[Grad(V(s,w))]
所以我的问题是,当使用神经网络来实现这一点时,
如何计算梯度以及
我是否更正了权重是通过 TensorFlow 或 PyTorch 中的优化 fmethods 更新的?
谢谢,乔恩
【问题讨论】:
标签: tensorflow pytorch reinforcement-learning