Introduction

传统RL手动提取选择特征,DL(CNN)可以根据raw sensory的数据抽象出一些high-level特征,DRL的困难:

  1. DL训练使用大量的labeled数据,而RL数据量小,且reward和action之间的delay
  2. DL样本间独立,RL样本间相关
  3. RL样本的分布随着学习改变,DL中设定的固定的分布

本文针对2,3困难的方法:
experience replay机制:将经验et=(st,at,rt,st+1)放入经验池D中,对θ进行SGD时随机从D中选取样本训练。意义是使当下的选择不会很强烈的影响θ,这样最终得到的Q(s,a;θ)会收敛,而且SGD不容易掉入局部最优值。

目标:agent不需要了解游戏的信息也不需要定义任何的特征,和emulator的内部状态,只是获取图像的输入(像素点向量),reward(得分的变化rt),terminal signals, action set.(等同于人类)

Background

1Reinforcement Learning - An Introduction

2function approximation to estimate Q*(s, a)

理论上Q*可以经过迭代得到,实际操作中对于每个Q(st, a)的估计都是独立的,不采取迭代,神经网络函数Q(s,a;θ)来拟合代替Q(s,a), Loss function:
Playing atari with deep reinforcement learning
Playing atari with deep reinforcement learning
SGD for weight θ
Playing atari with deep reinforcement learning
on-policy vs off-policy

DeepMind vs TD-Gammon

TD-Gammon使用的神经网络是MLP和一个hidden layer,DeepMind卷积神经网络。TD-Gammon是on-policy,DeepMind使用了experience replay。

DRL

CNN的一篇论文: ImageNet Classification with Deep Convolutional Neural Networks

Deep Q-Learning with Experience Replay:
Playing atari with deep reinforcement learning

Experiments

  • positive reward->1 negative reward->-1 0->0
    • 不同的游戏可以使用相同的学习率
    • 减小error偏差
    • 坏处是效果会变差因为不能定量区分reward
  • RMSProp 算法 minibatch:32
  • frame-skipping technique
  • 训练效果
    • 随着episode增加,每局游戏的平均的reward变化noisy,没有明显的趋势。 最大Q(s,a;θ)增大

相关文章: