【发布时间】:2017-03-01 11:19:07
【问题描述】:
在 Q-learning 中,如果我的 Q-function 由普通的前馈神经网络近似,我应该如何表示我的 Reward 函数?
我是否应该将其表示为“接近”、“非常接近”目标的离散值等等。我所关心的是,只要我已经转向 Q 函数的神经网络逼近Q(s, a, θ) 并且不再使用查找表,我是否还必须建立一个奖励表?
【问题讨论】:
标签: machine-learning tensorflow deep-learning reinforcement-learning q-learning