【发布时间】:2018-09-07 01:41:28
【问题描述】:
我正在尝试实现Episodic Semi-gradient Sarsa,以使用神经网络作为函数逼近器来估计q*。 我的问题是:q(S, A, w) 中的权重向量 w 是指神经网络中的权重吗?
见: Sutton and Barto 第 197/198 页的具体算法。
如果是:那么如何处理多层神经网络中存在多个权重向量的事实?
如果不是:我将如何在算法中使用它? 我的建议是将其附加到状态 s 和动作 a 中,并将其插入神经网络,以获得所选动作的状态近似值。这是正确的吗?
权重向量w的维度是如何确定的?
提前致谢!
【问题讨论】:
-
目前尚不清楚您问题中的这个
q(S, A, w)来自哪里。我想一些纸或书?请提供链接/页码等。 -
谢谢,我提供了参考
标签: machine-learning neural-network artificial-intelligence reinforcement-learning