【问题标题】:Reward function with a neural network approximated Q-function具有神经网络近似 Q 函数的奖励函数
【发布时间】:2017-03-01 11:19:07
【问题描述】:

在 Q-learning 中,如果我的 Q-function 由普通的前馈神经网络近似,我应该如何表示我的 Reward 函数?

我是否应该将其表示为“接近”、“非常接近”目标的离散值等等。我所关心的是,只要我已经转向 Q 函数的神经网络逼近Q(s, a, θ) 并且不再使用查找表,我是否还必须建立一个奖励表?

【问题讨论】:

    标签: machine-learning tensorflow deep-learning reinforcement-learning q-learning


    【解决方案1】:

    没有“奖励表”之类的东西,您应该定义“奖励信号”,它是在给定时间戳的给定代理世界状态中产生的。这个奖励应该是一个标量(数字)。一般来说,您可以考虑更复杂的奖励,但在 Q-learning 的典型设置中,奖励只是一个数字,因为算法的目标是找到一个策略,使其最大化预期的summed折扣奖励.显然,您需要一个可以相加、相乘和最终比较的对象,并且有效地此类对象只是数字(或可以直接转换为数字)。好的,话虽如此,对于您的特定情况,如果您知道到目标的距离,您可以给予与距离成反比的奖励,甚至可以是 -distance1/distance(因为这将保证更好的缩放)。

    【讨论】:

    • 是的,正如您所说,奖励是一个数字,作为从考虑距离的函数生成的当前分数。非常感谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-12-03
    • 2013-04-14
    • 1970-01-01
    • 2019-11-08
    • 1970-01-01
    • 1970-01-01
    • 2023-04-08
    相关资源
    最近更新 更多