【发布时间】:2023-04-08 00:59:01
【问题描述】:
我有一个关于在具有正面和负面奖励的环境中适当的激活函数的问题。
在强化学习中,我相信我们的输出应该是所有可能行动的预期回报。由于某些选项具有负奖励,因此我们需要一个包含负数的输出范围。
这会让我相信唯一合适的激活函数要么是线性的,要么是 tanh。但是,我看到很多 RL 论文都使用了 Relu。
所以两个问题:
如果您确实想要同时具有负输出和正输出,是否仅限于 tanh 和线性?
是否是更好的策略(如果可能)扩大奖励,使它们都在正域中(即,而不是 [-1,0,1], [0, 1, 2])为了让模型利用替代激活函数?
【问题讨论】:
-
你能指出一些使用 Relu 的 RL 论文,其输出是预期的奖励吗? (只是好奇!)谢谢。
-
来自 Mnih 的人类水平控制强化学习和来自 openAI 的事后经验回放
标签: machine-learning reinforcement-learning q-learning activation-function