Playing atari with deep reinforcement learning

Introduction

传统RL手动提取选择特征，DL(CNN)可以根据raw sensory的数据抽象出一些high-level特征，DRL的困难：

DL训练使用大量的labeled数据，而RL数据量小，且reward和action之间的delay
DL样本间独立，RL样本间相关
RL样本的分布随着学习改变，DL中设定的固定的分布

本文针对2，3困难的方法：
experience replay机制：将经验 $e_{t} = (s_{t}, a_{t}, r_{t}, s_{t + 1})$ 放入经验池D中，对 $θ$ 进行SGD时随机从D中选取样本训练。意义是使当下的选择不会很强烈的影响 $θ$ ，这样最终得到的Q(s,a; $θ$ )会收敛，而且SGD不容易掉入局部最优值。

目标：agent不需要了解游戏的信息也不需要定义任何的特征，和emulator的内部状态，只是获取图像的输入(像素点向量)，reward(得分的变化 $r_{t}$ )，terminal signals, action set.(等同于人类)

Background

1Reinforcement Learning - An Introduction

2function approximation to estimate Q*(s, a)

理论上Q*可以经过迭代得到，实际操作中对于每个Q( $s_{t}$ , a)的估计都是独立的，不采取迭代，神经网络函数Q(s,a; $θ$ )来拟合代替Q(s,a), Loss function:
Playing atari with deep reinforcement learning

SGD for weight $θ$ ：

on-policy vs off-policy

DeepMind vs TD-Gammon

TD-Gammon使用的神经网络是MLP和一个hidden layer，DeepMind卷积神经网络。TD-Gammon是on-policy，DeepMind使用了experience replay。

DRL

CNN的一篇论文： ImageNet Classification with Deep Convolutional Neural Networks

Deep Q-Learning with Experience Replay：
Playing atari with deep reinforcement learning

Experiments

positive reward->1 negative reward->-1 0->0
- 不同的游戏可以使用相同的学习率
- 减小error偏差
- 坏处是效果会变差因为不能定量区分reward
RMSProp 算法 minibatch:32
frame-skipping technique
训练效果
- 随着episode增加，每局游戏的平均的reward变化noisy，没有明显的趋势。最大Q(s,a; $θ$ )增大