使用神经网络进行强化学习函数逼近答案

【问题标题】：Reinforcement Learning function approximation with Neural Networks使用神经网络进行强化学习函数逼近
【发布时间】：2018-09-07 01:41:28
【问题描述】：

我正在尝试实现Episodic Semi-gradient Sarsa，以使用神经网络作为函数逼近器来估计q*。我的问题是：q(S, A, w) 中的权重向量 w 是指神经网络中的权重吗？

见： Sutton and Barto 第 197/198 页的具体算法。

如果是：那么如何处理多层神经网络中存在多个权重向量的事实？

如果不是：我将如何在算法中使用它？我的建议是将其附加到状态 s 和动作 a 中，并将其插入神经网络，以获得所选动作的状态近似值。这是正确的吗？

权重向量w的维度是如何确定的？

提前致谢！

【问题讨论】：

【解决方案1】：

伪代码中的 w 并不一定只是单个权重向量。本章开头的文本确实多次将 w 称为“权重向量”，但伪代码本身只提到 w 是可微的动作价值函数逼近器。神经网络完全符合这种描述。

对于神经网络，您可以将 w 视为所有权重矩阵的组合（或者；您可以将其视为通过展开所有权重构建的非常长的向量矩阵到单个向量）。您可以将在 w 上执行更新的伪代码行视为神经网络中的常规反向传播，优化所有参数 w 以使预测 q(S, A, w) 稍微接近 @987654322 @。

那一行伪代码基本上总结了整个反向传播过程，其中 w 是一个由神经网络的展开权重矩阵组成的巨大向量。在实践中，它不能在一行代码中实现，因为网络早期层的偏导数（q 向量的梯度的分量）依赖于更靠近输出层的层的偏导数，所以那些必须按顺序计算（如果您熟悉神经网络，这就是您所知道的反向传播）。

【讨论】：