array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction - 爱码网</title>
     
<meta name="keywords" content="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-204103829.html" title="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction">David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2021-12-10">2021-12-10</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<h2><strong>David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction</strong></h2>
<p>DP动态规划能够解决已知environment的MDP问题，即已知<span></span><span id="MathJax-Element-1-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-1" style="width: 5.978em; display: inline-block;"><span style="display: inline-block; position: relative; width: 5.601em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.89em 1000em 3.148em -0.563em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-2"><span id="MathJax-Span-3" style="font-family: MathJax_Main;"> </span><span id="MathJax-Span-4" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span id="MathJax-Span-5" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-6" style="font-family: MathJax_Math-italic; padding-left: 0.192em;">A</span><span id="MathJax-Span-7" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-8" style="font-family: MathJax_Math-italic; padding-left: 0.192em;">P<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.129em;"></span></span><span id="MathJax-Span-9" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-10" style="font-family: MathJax_Math-italic; padding-left: 0.192em;">R</span><span id="MathJax-Span-11" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-12" style="padding-left: 0.192em;"><span id="MathJax-Span-13"><span id="MathJax-Span-14" style="font-family: MathJax_Math-italic;">γ</span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.137em; vertical-align: -0.263em;"></span></span></nobr></span>，根据是否已知policy又将问题划分为prediction和control的问题。本质上来说这种known MDP问题<strong>已知environment即转移矩阵与reward函数</strong>。</p>
<p>但是很多问题中environment未知，不清楚做出了某个action之后会变到哪个state，也不知道这个action好不好，即说不清environment体现的model是什么。</p>
<p>这种情况下需要解决的prediction和control问题即model-free prediction和model-free control。<font color="#FF0000" face="黑体">&lt;该问题只能从与environment交互得到的experience中获取信息&gt;</font></p>
<p>本节即针对未知environment的policy evaluation，在给定policy下，求取state的value function是多少？</p>
<p>episode：从某个状态开始执行到终止状态的一次遍历<span></span><span id="MathJax-Element-2-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-15" style="width: 8.871em; display: inline-block;"><span style="display: inline-block; position: relative; width: 8.368em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.764em 1000em 3.148em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-16"><span id="MathJax-Span-17"><span style="display: inline-block; position: relative; width: 1.135em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-18" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-19" style="font-size: 70.7%; font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-20" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-21" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.198em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-22" style="font-family: MathJax_Math-italic;">A</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-23" style="font-size: 70.7%; font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-24" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-25" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.198em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-26" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-27" style="font-size: 70.7%; font-family: MathJax_Main;">2</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-28" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-29" style="font-family: MathJax_Main; padding-left: 0.192em;">⋅</span><span id="MathJax-Span-30" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-31" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-32"><span id="MathJax-Span-33"><span id="MathJax-Span-34"><span style='font-family: STIXGeneral, "Arial Unicode MS", serif; font-size: 94%; font-style: normal; font-weight: normal;'>，</span></span></span></span><span id="MathJax-Span-35"><span style="display: inline-block; position: relative; width: 1.135em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-36" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-37" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.263em;"></span></span></nobr></span>称为episode，已知很多episodes。</p>
<p>目录：</p>
<ul>
<li>Introduction</li>
<li>Monto-Carlo Learning</li>
<li>Temporal-Difference Learning</li>
<li>TD(λ)</li>
</ul>
<hr>
<h3><strong>1. Introduction</strong></h3>
<ol>
<li>
<strong>Model-Free prediction</strong> <br><ul><li>estimate the value function of an unknown MDP</li></ul>
</li>
<li>
<strong>Model-Free control</strong> <br><ul><li>optimize the value function of an unknown MDP</li></ul>
</li>
</ol>
<hr>
<h3><strong>2. Monte-Carlo Learning</strong></h3>
<ol>
<li>
<strong>特点</strong> <br><ul>
<li>直接从experience的episode中学习</li>
<li>不需要MDP的transition、rewards</li>
<li>主要思想：value = mean return，即反复测试求平均。</li>
</ul>
</li>
<li>
<p><strong>Monte-Carlo Policy Evaluation</strong></p>
<ul>
<li>基本内容 <br><ul>
<li>目标：在策略π下，从experience的episodes中学到<span></span><span id="MathJax-Element-3-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-38" style="width: 1.009em; display: inline-block;"><span style="display: inline-block; position: relative; width: 0.947em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.513em 1000em 2.519em -0.563em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-39"><span id="MathJax-Span-40"><span style="display: inline-block; position: relative; width: 0.947em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-41" style="font-family: MathJax_Math-italic;">v</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.506em;"><span id="MathJax-Span-42"><span id="MathJax-Span-43"><span id="MathJax-Span-44" style="font-size: 70.7%; font-family: MathJax_Math-italic;">π</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 0.803em; vertical-align: -0.263em;"></span></span></nobr></span>
</li>
<li>已知： <br><ul>
<li>a. return是所有的折扣回报之和 <br><span></span><div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-4-Frame"><nobr><span id="MathJax-Span-45" style="width: 24.469em; display: inline-block;"><span style="display: inline-block; position: relative; width: 23.085em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(0.318em 1000em 3.462em -0.311em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-46"><span id="MathJax-Span-47" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 22.708em; height: 0px;"><span style="position: absolute; clip: rect(2.204em 1000em 5.349em -0.5em); top: -4.022em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 22.708em; height: 0px;"><span style="position: absolute; clip: rect(1.009em 1000em 4.154em -0.5em); top: -2.827em; right: 0.003em;"><span id="MathJax-Span-48"><span id="MathJax-Span-49"><span id="MathJax-Span-50"><span style="display: inline-block; position: relative; width: 1.072em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-51" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-52"><span id="MathJax-Span-53"><span id="MathJax-Span-54" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-55" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-56" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-57" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-58"><span id="MathJax-Span-59"><span id="MathJax-Span-60" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-61" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-62" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-63" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-64" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span id="MathJax-Span-65"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-66" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-67"><span id="MathJax-Span-68"><span id="MathJax-Span-69" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-70" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-71" style="font-size: 70.7%; font-family: MathJax_Main;">2</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-72" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-73" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-74" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-75" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-76" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-77" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.896em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-78" style="font-family: MathJax_Math-italic;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.569em;"><span id="MathJax-Span-79"><span id="MathJax-Span-80"><span id="MathJax-Span-81" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-82"><span style="display: inline-block; position: relative; width: 2.896em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-83" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-84"><span id="MathJax-Span-85"><span id="MathJax-Span-86" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-87" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-88" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span><span id="MathJax-Span-89" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-90" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-91" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-92" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.45em; height: 0px;"><span style="position: absolute; clip: rect(2.645em 1000em 4.406em -0.5em); top: -3.77em; left: 0.003em;"><span id="MathJax-Span-93" style="font-family: MathJax_Size2; vertical-align: 0.003em;">∑</span><span style="display: inline-block; width: 0px; height: 3.777em;"></span></span><span style="position: absolute; clip: rect(1.575em 1000em 2.582em -0.5em); top: -1.129em; left: 0.066em;"><span id="MathJax-Span-94"><span id="MathJax-Span-95"><span id="MathJax-Span-96" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span><span id="MathJax-Span-97" style="font-size: 70.7%; font-family: MathJax_Main;">=</span><span id="MathJax-Span-98" style="font-size: 70.7%; font-family: MathJax_Main;">0</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.456em -0.5em); top: -3.393em; left: 0.381em;"><span id="MathJax-Span-99"><span id="MathJax-Span-100"><span id="MathJax-Span-101" style="font-size: 70.7%; font-family: MathJax_Main;">∞</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-102" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.896em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-103" style="font-family: MathJax_Math-italic;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.569em;"><span id="MathJax-Span-104"><span id="MathJax-Span-105"><span id="MathJax-Span-106" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-107"><span style="display: inline-block; position: relative; width: 2.896em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-108" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-109"><span id="MathJax-Span-110"><span id="MathJax-Span-111" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-112" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-113" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span><span id="MathJax-Span-114" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-115" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 3.07em; vertical-align: -1.263em;"></span></span></nobr></span></div>
</li>
<li>b. value function 是return的期望值（第二节中，每个state的value function是return的期望值） <br><span></span><div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-5-Frame"><nobr><span id="MathJax-Span-116" style="width: 10.695em; display: inline-block;"><span style="display: inline-block; position: relative; width: 10.066em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.198em 1000em 2.582em -0.374em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-117"><span id="MathJax-Span-118" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 9.689em; height: 0px;"><span style="position: absolute; clip: rect(3.085em 1000em 4.469em -0.563em); top: -4.022em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 9.689em; height: 0px;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.563em); top: -2.764em; right: 0.003em;"><span id="MathJax-Span-119"><span id="MathJax-Span-120"><span id="MathJax-Span-121"><span style="display: inline-block; position: relative; width: 0.947em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-122" style="font-family: MathJax_Math-italic;">v</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.506em;"><span id="MathJax-Span-123"><span id="MathJax-Span-124"><span id="MathJax-Span-125" style="font-size: 70.7%; font-family: MathJax_Math-italic;">π<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-126" style="padding-left: 0.192em;"><span id="MathJax-Span-127" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-128" style="font-family: MathJax_Math-italic;">s</span><span id="MathJax-Span-129" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-130" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-131" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.198em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-132" style="font-family: MathJax_Math-italic;">E<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-133"><span id="MathJax-Span-134"><span id="MathJax-Span-135" style="font-size: 70.7%; font-family: MathJax_Math-italic;">π<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-136" style="padding-left: 0.192em;"><span id="MathJax-Span-137" style="font-family: MathJax_Main;">[</span><span id="MathJax-Span-138"><span style="display: inline-block; position: relative; width: 1.072em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-139" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-140"><span id="MathJax-Span-141"><span id="MathJax-Span-142" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-143"><span id="MathJax-Span-144"><span id="MathJax-Span-145" style="font-family: MathJax_Main;">|</span></span></span><span id="MathJax-Span-146"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-147" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-148"><span id="MathJax-Span-149"><span id="MathJax-Span-150" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-151" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-152" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">s</span><span id="MathJax-Span-153" style="font-family: MathJax_Main;">]</span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.27em; vertical-align: -0.33em;"></span></span></nobr></span></div>
</li>
</ul>
</li>
<li>关键：与第二节讲到的不同，Monte-Carlo policy <strong>假设</strong>每个状态的value function取值等于多个episodes的return <span></span><span id="MathJax-Element-6-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-154" style="width: 1.135em; display: inline-block;"><span style="display: inline-block; position: relative; width: 1.072em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.261em 1000em 2.519em -0.5em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-155"><span id="MathJax-Span-156"><span style="display: inline-block; position: relative; width: 1.072em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-157" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-158" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.07em; vertical-align: -0.263em;"></span></span></nobr></span>d的<strong>平均值而非期望值</strong>，即在Monte-Carlo policy evaluation的假设下，值函数的取值从期望简化成了均值。这就<strong>需要每个episode是完整的流程，即一定要执行到终止状态。</strong> </li>
<li><font color="#FF0000" size="3" face="黑体">由于每一步的reward都知道，则意味着每一步的return <span></span><span id="MathJax-Element-7-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-159" style="width: 1.123em; display: inline-block;"><span style="display: inline-block; position: relative; width: 1.064em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.3em 1000em 2.538em -0.469em); top: -2.179em; left: 0.003em;"><span id="MathJax-Span-160"><span id="MathJax-Span-161"><span style="display: inline-block; position: relative; width: 1.064em; height: 0px;"><span style="position: absolute; clip: rect(1.654em 1000em 2.715em -0.469em); top: -2.532em; left: 0.003em;"><span id="MathJax-Span-162" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.538em;"></span></span><span style="position: absolute; top: -2.061em; left: 0.769em;"><span id="MathJax-Span-163"><span id="MathJax-Span-164"><span id="MathJax-Span-165" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.244em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.185em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.066em; vertical-align: -0.247em;"></span></span></nobr></span>都可以计算出来。因此，通过反复测试，这样很多状态就会被遍历到，而且不止一次，那么每次就可以把在状态下的return求取平均值。当episode无限大时，得到的数据也就接近于真实的数据。Monte-Carlo方法就是使用统计学的方法来取代Bellman方法的计算方法。</font></li>
<li>有两种访问次数的记录方式，一种是在一个episode中只记录第一次访问到的s，一种是一个episode中每次访问到s都记录下来。</li>
<li>First-Visit MC Policy Evaluation，每一次的episode中state只使用第一次到达的t来计算return <br><center><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpjNU5TOW1aREl4T1dVNU4yVmhZemxsTlROak5EZ3pOekk0WXpRME1tRmhORFZtTXk1S1VFVkg=" alt="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction" title="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction"></center> </li>
<li>Every-Visit MC Policy Evaluation，每一次的episode中state只要访问到就计算return求平均 <br><center><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpVeU1DOWpNakpsWXpsaFptVm1NV0V5WlRKbFpqZG1OMkV6TWpabVl6UXdNVEJtTUM1S1VFVkg=" alt="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction" title="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction"></center> </li>
</ul>
</li>
<li><p>特点：可以看到蒙特卡洛方法是极其简单的。但是缺点也是很明显的，需要尽可能多的反复测试，而且需要到每一次测试结束后才来计算，需要耗费大量时间。“AlphaGo就是使用蒙特卡洛的思想。不是蒙特卡洛树搜索，而是说在增强学习中使用蒙特卡洛方法的思想。AlphaGo每次也是到下棋结束，而且只使用最后的输赢作为return。所以这也是非常神奇的事，只使用最后的输赢结果，竟然能够优化每一步的走法。”</p></li>
<li>
<p><strong>Incremental Monte-Carlo</strong></p>
<ul>
<li>
<p>Incremental Mean <br>
序列<span></span><span id="MathJax-Element-8-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-166" style="width: 5.601em; display: inline-block;"><span style="display: inline-block; position: relative; width: 5.286em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-167"><span id="MathJax-Span-168"><span id="MathJax-Span-169" style="font-family: MathJax_Main;">{</span><span id="MathJax-Span-170"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-171" style="font-family: MathJax_Math-italic;">x</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-172"><span id="MathJax-Span-173"><span id="MathJax-Span-174" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-175" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-176" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-177" style="font-family: MathJax_Math-italic;">x</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-178"><span id="MathJax-Span-179"><span id="MathJax-Span-180" style="font-size: 70.7%; font-family: MathJax_Main;">2</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-181" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-182" style="font-family: MathJax_Main; padding-left: 0.192em;">⋅</span><span id="MathJax-Span-183" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-184" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-185" style="font-family: MathJax_Main;">}</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>的均值<span></span><span id="MathJax-Element-9-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-186" style="width: 5.601em; display: inline-block;"><span style="display: inline-block; position: relative; width: 5.286em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-187"><span id="MathJax-Span-188"><span id="MathJax-Span-189" style="font-family: MathJax_Main;">{</span><span id="MathJax-Span-190"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-191" style="font-family: MathJax_Math-italic;">u</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-192"><span id="MathJax-Span-193"><span id="MathJax-Span-194" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-195" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-196" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-197" style="font-family: MathJax_Math-italic;">u</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-198"><span id="MathJax-Span-199"><span id="MathJax-Span-200" style="font-size: 70.7%; font-family: MathJax_Main;">2</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-201" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-202" style="font-family: MathJax_Main; padding-left: 0.192em;">⋅</span><span id="MathJax-Span-203" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-204" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-205" style="font-family: MathJax_Main;">}</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>可以增量式增加 <br><span></span></p>
<div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-10-Frame"><nobr><span id="MathJax-Span-206" style="width: 13.84em; display: inline-block;"><span style="display: inline-block; position: relative; width: 13.022em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(-3.896em 1000em 7.676em -0.374em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-207"><span id="MathJax-Span-208" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 12.645em; height: 0px;"><span style="position: absolute; clip: rect(5.475em 1000em 15.097em -0.563em); top: -10.248em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(3.399em 1000em 4.406em -0.563em); top: -8.173em; right: 0.003em;"><span id="MathJax-Span-209"><span id="MathJax-Span-210"><span id="MathJax-Span-211"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-212" style="font-family: MathJax_Math-italic;">u</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-213"><span id="MathJax-Span-214"><span id="MathJax-Span-215" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span><span style="position: absolute; clip: rect(3.84em 1000em 4.217em -0.563em); top: -4.651em; right: 0.003em;"><span id="MathJax-Span-239"><span id="MathJax-Span-240"></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span><span style="position: absolute; clip: rect(3.84em 1000em 4.217em -0.563em); top: -1.695em; right: 0.003em;"><span id="MathJax-Span-275"><span id="MathJax-Span-276"></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span><span style="position: absolute; clip: rect(3.84em 1000em 4.217em -0.563em); top: 0.632em; right: 0.003em;"><span id="MathJax-Span-307"><span id="MathJax-Span-308"></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span><span style="display: inline-block; width: 0px; height: 10.255em;"></span></span><span style="position: absolute; clip: rect(5.475em 1000em 14.972em -0.248em); top: -10.123em; left: 1.324em;"><span style="display: inline-block; position: relative; width: 1.324em; height: 0px;"><span style="position: absolute; clip: rect(2.204em 1000em 2.896em -0.248em); top: -6.915em; left: 50%; margin-left: -0.626em;"><span id="MathJax-Span-216"><span id="MathJax-Span-217"><span id="MathJax-Span-218" style="font-family: MathJax_Main; padding-left: 0.255em; padding-right: 0.318em;">=</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span><span style="position: absolute; clip: rect(2.204em 1000em 2.896em -0.248em); top: -3.393em; left: 50%; margin-left: -0.626em;"><span id="MathJax-Span-241"><span id="MathJax-Span-242"><span id="MathJax-Span-243" style="font-family: MathJax_Main; padding-left: 0.255em; padding-right: 0.318em;">=</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span><span style="position: absolute; clip: rect(2.204em 1000em 2.896em -0.248em); top: -0.437em; left: 50%; margin-left: -0.626em;"><span id="MathJax-Span-277"><span id="MathJax-Span-278"><span id="MathJax-Span-279" style="font-family: MathJax_Main; padding-left: 0.255em; padding-right: 0.318em;">=</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span><span style="position: absolute; clip: rect(2.204em 1000em 2.896em -0.248em); top: 1.89em; left: 50%; margin-left: -0.626em;"><span id="MathJax-Span-309"><span id="MathJax-Span-310"><span id="MathJax-Span-311" style="font-family: MathJax_Main; padding-left: 0.255em; padding-right: 0.318em;">=</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="display: inline-block; width: 0px; height: 10.129em;"></span></span><span style="position: absolute; clip: rect(6.167em 1000em 17.739em -0.563em); top: -12.198em; left: 2.896em;"><span style="display: inline-block; position: relative; width: 9.752em; height: 0px;"><span style="position: absolute; clip: rect(2.142em 1000em 5.601em -0.563em); top: -8.236em; left: 0.003em;"><span id="MathJax-Span-219"><span id="MathJax-Span-220"><span id="MathJax-Span-221"><span style="display: inline-block; position: relative; width: 0.632em; height: 0px; margin-right: 0.129em; margin-left: 0.129em;"><span style="position: absolute; clip: rect(1.89em 1000em 2.959em -0.5em); top: -3.456em; left: 50%; margin-left: -0.248em;"><span id="MathJax-Span-222" style="font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -1.821em; left: 50%; margin-left: -0.248em;"><span id="MathJax-Span-223" style="font-family: MathJax_Math-italic;">k</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; clip: rect(0.821em 1000em 1.261em -0.563em); top: -1.255em; left: 0.003em;"><span style="border-left: 0.632em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.25px; vertical-align: 0.003em;"></span><span style="display: inline-block; width: 0px; height: 1.072em;"></span></span></span></span><span id="MathJax-Span-224" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.45em; height: 0px;"><span style="position: absolute; clip: rect(2.645em 1000em 4.406em -0.5em); top: -3.77em; left: 0.003em;"><span id="MathJax-Span-225" style="font-family: MathJax_Size2; vertical-align: 0.003em;">∑</span><span style="display: inline-block; width: 0px; height: 3.777em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.563em); top: -1.192em; left: 0.129em;"><span id="MathJax-Span-226"><span id="MathJax-Span-227"><span id="MathJax-Span-228" style="font-size: 70.7%; font-family: MathJax_Math-italic;">j</span><span id="MathJax-Span-229" style="font-size: 70.7%; font-family: MathJax_Main;">=</span><span id="MathJax-Span-230" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.513em 1000em 2.456em -0.5em); top: -3.393em; left: 0.569em;"><span id="MathJax-Span-231"><span id="MathJax-Span-232"><span id="MathJax-Span-233" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-234" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 0.947em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-235" style="font-family: MathJax_Math-italic;">x</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-236"><span id="MathJax-Span-237"><span id="MathJax-Span-238" style="font-size: 70.7%; font-family: MathJax_Math-italic;">j</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 4.091em;"></span></span><span style="position: absolute; clip: rect(2.267em 1000em 5.789em -0.563em); top: -4.903em; left: 0.003em;"><span id="MathJax-Span-244"><span id="MathJax-Span-245"><span id="MathJax-Span-246"><span style="display: inline-block; position: relative; width: 0.632em; height: 0px; margin-right: 0.129em; margin-left: 0.129em;"><span style="position: absolute; clip: rect(1.89em 1000em 2.959em -0.5em); top: -3.456em; left: 50%; margin-left: -0.248em;"><span id="MathJax-Span-247" style="font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -1.821em; left: 50%; margin-left: -0.248em;"><span id="MathJax-Span-248" style="font-family: MathJax_Math-italic;">k</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; clip: rect(0.821em 1000em 1.261em -0.563em); top: -1.255em; left: 0.003em;"><span style="border-left: 0.632em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.25px; vertical-align: 0.003em;"></span><span style="display: inline-block; width: 0px; height: 1.072em;"></span></span></span></span><span id="MathJax-Span-249" style="padding-left: 0.192em;"><span id="MathJax-Span-250" style="vertical-align: 1.827em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 0.884em; height: 0px;"><span style="position: absolute; font-family: MathJax_Size4; top: -2.89em; left: 0.003em;">⎛<span style="display: inline-block; width: 0px; height: 4.028em;"></span></span><span style="position: absolute; font-family: MathJax_Size4; top: -1.506em; left: 0.003em;">⎝<span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span><span id="MathJax-Span-251"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-252" style="font-family: MathJax_Math-italic;">x</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-253"><span id="MathJax-Span-254"><span id="MathJax-Span-255" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-256" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-257" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.45em; height: 0px;"><span style="position: absolute; clip: rect(2.645em 1000em 4.406em -0.5em); top: -3.77em; left: 0.003em;"><span id="MathJax-Span-258" style="font-family: MathJax_Size2; vertical-align: 0.003em;">∑</span><span style="display: inline-block; width: 0px; height: 3.777em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.563em); top: -1.192em; left: 0.129em;"><span id="MathJax-Span-259"><span id="MathJax-Span-260"><span id="MathJax-Span-261" style="font-size: 70.7%; font-family: MathJax_Math-italic;">j</span><span id="MathJax-Span-262" style="font-size: 70.7%; font-family: MathJax_Main;">=</span><span id="MathJax-Span-263" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.513em 1000em 2.456em -0.5em); top: -3.393em; left: 0.066em;"><span id="MathJax-Span-264"><span id="MathJax-Span-265"><span id="MathJax-Span-266" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span><span id="MathJax-Span-267" style="font-size: 70.7%; font-family: MathJax_Main;">−</span><span id="MathJax-Span-268" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-269" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 0.947em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-270" style="font-family: MathJax_Math-italic;">x</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-271"><span id="MathJax-Span-272"><span id="MathJax-Span-273" style="font-size: 70.7%; font-family: MathJax_Math-italic;">j</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-274" style="vertical-align: 1.827em;"><span style="display: inline-block; position: relative; width: 0.884em; height: 0px;"><span style="position: absolute; font-family: MathJax_Size4; top: -2.89em; left: 0.003em;">⎞<span style="display: inline-block; width: 0px; height: 4.028em;"></span></span><span style="position: absolute; font-family: MathJax_Size4; top: -1.506em; left: 0.003em;">⎠<span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 4.28em;"></span></span><span style="position: absolute; clip: rect(1.261em 1000em 3.651em -0.563em); top: -0.437em; left: 0.003em;"><span id="MathJax-Span-280"><span id="MathJax-Span-281"><span id="MathJax-Span-282"><span style="display: inline-block; position: relative; width: 0.632em; height: 0px; margin-right: 0.129em; margin-left: 0.129em;"><span style="position: absolute; clip: rect(1.89em 1000em 2.959em -0.5em); top: -3.456em; left: 50%; margin-left: -0.248em;"><span id="MathJax-Span-283" style="font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -1.821em; left: 50%; margin-left: -0.248em;"><span id="MathJax-Span-284" style="font-family: MathJax_Math-italic;">k</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; clip: rect(0.821em 1000em 1.261em -0.563em); top: -1.255em; left: 0.003em;"><span style="border-left: 0.632em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.25px; vertical-align: 0.003em;"></span><span style="display: inline-block; width: 0px; height: 1.072em;"></span></span></span></span><span id="MathJax-Span-285" style="padding-left: 0.192em;"><span id="MathJax-Span-286" style="font-family: MathJax_Main; padding-left: 0.192em;">(</span><span id="MathJax-Span-287"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-288" style="font-family: MathJax_Math-italic;">x</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-289"><span id="MathJax-Span-290"><span id="MathJax-Span-291" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-292" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-293" style="padding-left: 0.255em;"><span id="MathJax-Span-294" style="font-family: MathJax_Main; padding-left: 0.255em;">(</span><span id="MathJax-Span-295" style="font-family: MathJax_Math-italic;">k</span><span id="MathJax-Span-296" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-297" style="font-family: MathJax_Main; padding-left: 0.255em;">1</span><span id="MathJax-Span-298" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-299" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.89em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-300" style="font-family: MathJax_Math-italic;">u</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-301"><span id="MathJax-Span-302"><span id="MathJax-Span-303" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span><span id="MathJax-Span-304" style="font-size: 70.7%; font-family: MathJax_Main;">−</span><span id="MathJax-Span-305" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-306" style="font-family: MathJax_Main;">)</span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span><span style="position: absolute; clip: rect(1.261em 1000em 3.651em -0.563em); top: 1.89em; left: 0.003em;"><span id="MathJax-Span-312"><span id="MathJax-Span-313"><span id="MathJax-Span-314"><span style="display: inline-block; position: relative; width: 1.89em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-315" style="font-family: MathJax_Math-italic;">u</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-316"><span id="MathJax-Span-317"><span id="MathJax-Span-318" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span><span id="MathJax-Span-319" style="font-size: 70.7%; font-family: MathJax_Main;">−</span><span id="MathJax-Span-320" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-321" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-322" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 0.632em; height: 0px; margin-right: 0.129em; margin-left: 0.129em;"><span style="position: absolute; clip: rect(1.89em 1000em 2.959em -0.5em); top: -3.456em; left: 50%; margin-left: -0.248em;"><span id="MathJax-Span-323" style="font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -1.821em; left: 50%; margin-left: -0.248em;"><span id="MathJax-Span-324" style="font-family: MathJax_Math-italic;">k</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; clip: rect(0.821em 1000em 1.261em -0.563em); top: -1.255em; left: 0.003em;"><span style="border-left: 0.632em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.25px; vertical-align: 0.003em;"></span><span style="display: inline-block; width: 0px; height: 1.072em;"></span></span></span></span><span id="MathJax-Span-325" style="padding-left: 0.192em;"><span id="MathJax-Span-326" style="font-family: MathJax_Main; padding-left: 0.192em;">(</span><span id="MathJax-Span-327"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-328" style="font-family: MathJax_Math-italic;">x</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-329"><span id="MathJax-Span-330"><span id="MathJax-Span-331" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-332" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-333" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.89em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-334" style="font-family: MathJax_Math-italic;">u</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.569em;"><span id="MathJax-Span-335"><span id="MathJax-Span-336"><span id="MathJax-Span-337" style="font-size: 70.7%; font-family: MathJax_Math-italic;">k</span><span id="MathJax-Span-338" style="font-size: 70.7%; font-family: MathJax_Main;">−</span><span id="MathJax-Span-339" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-340" style="font-family: MathJax_Main;">)</span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="display: inline-block; width: 0px; height: 12.204em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 12.003em; vertical-align: -5.73em;"></span></span></nobr></span></div>
<p></p>
</li>
<li>
<p>Incremental Monte-Carlo Updates</p>
<ul>
<li>Updates V(s) incrementally after episode <span></span><span id="MathJax-Element-11-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-341" style="width: 8.431em; display: inline-block;"><span style="display: inline-block; position: relative; width: 7.928em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.89em 1000em 3.148em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-342"><span id="MathJax-Span-343"><span style="display: inline-block; position: relative; width: 1.135em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-344" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-345" style="font-size: 70.7%; font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-346" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-347" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.198em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-348" style="font-family: MathJax_Math-italic;">A</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-349" style="font-size: 70.7%; font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-350" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-351" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.198em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-352" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-353" style="font-size: 70.7%; font-family: MathJax_Main;">2</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-354" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-355" style="font-family: MathJax_Main; padding-left: 0.192em;">⋅</span><span id="MathJax-Span-356" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-357" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-358" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-359" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.198em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-360" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-361" style="font-size: 70.7%; font-family: MathJax_Math-italic;">T<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.07em; vertical-align: -0.263em;"></span></span></nobr></span>。</li>
<li>针对每一次新的访问，先次数加1，<span></span><span id="MathJax-Element-12-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-362" style="width: 8.871em; display: inline-block;"><span style="display: inline-block; position: relative; width: 8.368em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.563em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-363"><span id="MathJax-Span-364" style="font-family: MathJax_Math-italic;">N<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span id="MathJax-Span-365" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-366"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-367" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-368" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-369" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-370" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-371" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">N<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span id="MathJax-Span-372" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-373"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-374" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-375" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-376" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-377" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-378" style="font-family: MathJax_Main; padding-left: 0.255em;">1</span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>，然后更新<span></span><span id="MathJax-Element-13-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-379" style="width: 16.733em; display: inline-block;"><span style="display: inline-block; position: relative; width: 15.789em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.701em 1000em 3.588em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-380"><span id="MathJax-Span-381" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-382" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-383"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-384" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-385" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-386" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-387" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-388" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-389" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-390"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-391" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-392" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-393" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-394" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-395" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px; margin-right: 0.129em; margin-left: 0.129em;"><span style="position: absolute; clip: rect(1.638em 1000em 2.456em -0.5em); top: -2.701em; left: 50%; margin-left: -0.186em;"><span id="MathJax-Span-396" style="font-size: 70.7%; font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.575em 1000em 2.645em -0.563em); top: -1.821em; left: 50%; margin-left: -0.877em;"><span id="MathJax-Span-397"><span id="MathJax-Span-398" style="font-size: 70.7%; font-family: MathJax_Math-italic;">N<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span id="MathJax-Span-399" style="font-size: 70.7%; font-family: MathJax_Main;">(</span><span id="MathJax-Span-400"><span style="display: inline-block; position: relative; width: 0.632em; height: 0px;"><span style="position: absolute; clip: rect(1.575em 1000em 2.456em -0.5em); top: -2.261em; left: 0.003em;"><span id="MathJax-Span-401" style="font-size: 70.7%; font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; top: -2.009em; left: 0.443em;"><span id="MathJax-Span-402" style="font-size: 50.3%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span></span><span id="MathJax-Span-403" style="font-size: 70.7%; font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(0.821em 1000em 1.261em -0.563em); top: -1.255em; left: 0.003em;"><span style="border-left: 1.953em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.25px; vertical-align: 0.003em;"></span><span style="display: inline-block; width: 0px; height: 1.072em;"></span></span></span></span><span id="MathJax-Span-404" style="font-family: MathJax_Main; padding-left: 0.192em;">(</span><span id="MathJax-Span-405"><span style="display: inline-block; position: relative; width: 1.072em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-406" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-407" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-408" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-409" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-410" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-411"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-412" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-413" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-414" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-415" style="font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.737em; vertical-align: -0.73em;"></span></span></nobr></span>
</li>
<li>在解非固定问题时，可以将<span></span><span id="MathJax-Element-14-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-416" style="width: 2.33em; display: inline-block;"><span style="display: inline-block; position: relative; width: 2.204em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.072em 1000em 2.959em -0.563em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-417"><span id="MathJax-Span-418"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px; margin-right: 0.129em; margin-left: 0.129em;"><span style="position: absolute; clip: rect(1.638em 1000em 2.456em -0.5em); top: -2.701em; left: 50%; margin-left: -0.186em;"><span id="MathJax-Span-419" style="font-size: 70.7%; font-family: MathJax_Main;">1</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.575em 1000em 2.645em -0.563em); top: -1.821em; left: 50%; margin-left: -0.877em;"><span id="MathJax-Span-420"><span id="MathJax-Span-421" style="font-size: 70.7%; font-family: MathJax_Math-italic;">N<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span id="MathJax-Span-422" style="font-size: 70.7%; font-family: MathJax_Main;">(</span><span id="MathJax-Span-423"><span style="display: inline-block; position: relative; width: 0.632em; height: 0px;"><span style="position: absolute; clip: rect(1.575em 1000em 2.456em -0.5em); top: -2.261em; left: 0.003em;"><span id="MathJax-Span-424" style="font-size: 70.7%; font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; top: -2.009em; left: 0.443em;"><span id="MathJax-Span-425" style="font-size: 50.3%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span></span><span id="MathJax-Span-426" style="font-size: 70.7%; font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(0.821em 1000em 1.261em -0.563em); top: -1.255em; left: 0.003em;"><span style="border-left: 1.953em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.25px; vertical-align: 0.003em;"></span><span style="display: inline-block; width: 0px; height: 1.072em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.737em; vertical-align: -0.73em;"></span></span></nobr></span>设置为一个常数<span></span><span id="MathJax-Element-15-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-427" style="width: 0.695em; display: inline-block;"><span style="display: inline-block; position: relative; width: 0.632em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-428"><span id="MathJax-Span-429" style="font-family: MathJax_Math-italic;">α</span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 0.603em; vertical-align: -0.063em;"></span></span></nobr></span>，即<span></span><span id="MathJax-Element-16-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-430" style="width: 14.909em; display: inline-block;"><span style="display: inline-block; position: relative; width: 14.028em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-431"><span id="MathJax-Span-432" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-433" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-434"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-435" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-436" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-437" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-438" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-439" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-440" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-441"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-442" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-443" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-444" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-445" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-446" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">α</span><span id="MathJax-Span-447" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-448"><span style="display: inline-block; position: relative; width: 1.072em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-449" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-450" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-451" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-452" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-453" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-454"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-455" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-456" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-457" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-458" style="font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>.</li>
</ul>
</li>
</ul>
</li>
</ul>
</li>
</ol>
<hr>
<h3><strong>3. Temporal-Difference Learning</strong></h3>
<ol>
<li>
<strong>思想</strong> <br>
基于Bootstrapping思想，即在中间状态中会估计当前获得的return值，并更新之前状态能获得的return，因此它<font color="#FF0000" size="4" face="黑体"><strong>不需要走完一个episode的全部流程</strong>。</font>而前面分析的蒙特卡洛方法，其一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的</li>
<li>
<strong>特点</strong> <br><ul>
<li>直接从experience的episode中学习</li>
<li>不需要MDP的transitions、rewards</li>
<li>通过bootstrapping从不完整的episode中学习 <br><font color="#FF0000" size="4" face="黑体"><strong>bootstraping</strong>。即通过估计的方法来引导计算。那么蒙特卡罗不使用bootstraping，而TD使用bootstraping。</font>
</li>
<li>每一步都可以更新，这是显然，也就是online learning，学习快</li>
<li>从一个猜测更新到另一个猜测</li>
<li>可以面对没有结果的场景，应用范围广</li>
</ul>
</li>
<li>
<strong>TD vs MC</strong> <br><ul>
<li>目标：learn <span></span><span id="MathJax-Element-17-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-459" style="width: 1.009em; display: inline-block;"><span style="display: inline-block; position: relative; width: 0.947em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.513em 1000em 2.519em -0.563em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-460"><span id="MathJax-Span-461"><span style="display: inline-block; position: relative; width: 0.947em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-462" style="font-family: MathJax_Math-italic;">v</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.506em;"><span id="MathJax-Span-463" style="font-size: 70.7%; font-family: MathJax_Math-italic;">π<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 0.803em; vertical-align: -0.263em;"></span></span></nobr></span> online from experience under policy <span></span><span id="MathJax-Element-18-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-464" style="width: 0.632em; display: inline-block;"><span style="display: inline-block; position: relative; width: 0.569em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-465"><span id="MathJax-Span-466" style="font-family: MathJax_Math-italic;">π<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 0.603em; vertical-align: -0.063em;"></span></span></nobr></span>.</li>
<li>Incremental every-visit Monte-Carlo <br><font color="#FF0000" size="4" face="黑体">根据真实的 reward <span></span><span id="MathJax-Element-19-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-467" style="width: 1.208em; display: inline-block;"><span style="display: inline-block; position: relative; width: 1.103em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.313em 1000em 2.466em -0.417em); top: -2.146em; left: 0.003em;"><span id="MathJax-Span-468"><span id="MathJax-Span-469"><span style="display: inline-block; position: relative; width: 1.103em; height: 0px;"><span style="position: absolute; clip: rect(1.68em 1000em 2.676em -0.417em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-470" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.518em;"></span></span><span style="position: absolute; top: -2.094em; left: 0.789em;"><span id="MathJax-Span-471" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.256em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.151em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.003em; vertical-align: -0.219em;"></span></span></nobr></span>更新 <span></span><span id="MathJax-Element-20-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-472" style="width: 2.728em; display: inline-block;"><span style="display: inline-block; position: relative; width: 2.571em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.837em 1000em 3.147em -0.417em); top: -2.723em; left: 0.003em;"><span id="MathJax-Span-473"><span id="MathJax-Span-474" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.212em;"></span></span><span id="MathJax-Span-475" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-476"><span style="display: inline-block; position: relative; width: 0.998em; height: 0px;"><span style="position: absolute; clip: rect(1.68em 1000em 2.676em -0.417em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-477" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.055em;"></span></span><span style="display: inline-block; width: 0px; height: 2.518em;"></span></span><span style="position: absolute; top: -2.094em; left: 0.632em;"><span id="MathJax-Span-478" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.256em;"></span></span></span></span><span id="MathJax-Span-479" style="font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.728em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.169em; vertical-align: -0.331em;"></span></span></nobr></span>: </font> <br><span></span><div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-21-Frame"><nobr><span id="MathJax-Span-480" style="width: 15.286em; display: inline-block;"><span style="display: inline-block; position: relative; width: 14.406em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.198em 1000em 2.582em -0.311em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-481"><span id="MathJax-Span-482" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 14.028em; height: 0px;"><span style="position: absolute; clip: rect(3.085em 1000em 4.469em -0.5em); top: -4.022em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 14.028em; height: 0px;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.5em); top: -2.764em; right: 0.003em;"><span id="MathJax-Span-483"><span id="MathJax-Span-484"><span id="MathJax-Span-485" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-486" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-487"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-488" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-489" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-490" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-491" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-492" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-493" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-494"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-495" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-496" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-497" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-498" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-499" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">α</span><span id="MathJax-Span-500" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-501"><span style="display: inline-block; position: relative; width: 1.072em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-502" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-503" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-504" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-505" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-506" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-507"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-508" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-509" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-510" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-511" style="font-family: MathJax_Main;">)</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.27em; vertical-align: -0.33em;"></span></span></nobr></span></div>
</li>
<li>Simplest temporal-difference learning algorithm: TD(0) <br><font color="#FF0000" size="4" face="黑体">根据估计的return更新<span></span><span id="MathJax-Element-22-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-512" style="width: 2.518em; display: inline-block;"><span style="display: inline-block; position: relative; width: 2.361em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.837em 1000em 3.147em -0.417em); top: -2.723em; left: 0.003em;"><span id="MathJax-Span-513"><span id="MathJax-Span-514" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.212em;"></span></span><span id="MathJax-Span-515" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-516"><span style="display: inline-block; position: relative; width: 0.789em; height: 0px;"><span style="position: absolute; clip: rect(1.942em 1000em 2.676em -0.417em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-517" style="font-family: MathJax_Math-italic;">s</span><span style="display: inline-block; width: 0px; height: 2.518em;"></span></span><span style="position: absolute; top: -2.094em; left: 0.474em;"><span id="MathJax-Span-518" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.256em;"></span></span></span></span><span id="MathJax-Span-519" style="font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.728em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.169em; vertical-align: -0.331em;"></span></span></nobr></span>, 估计return：<span></span><span id="MathJax-Element-23-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-520" style="width: 8.388em; display: inline-block;"><span style="display: inline-block; position: relative; width: 7.917em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.837em 1000em 3.147em -0.417em); top: -2.723em; left: 0.003em;"><span id="MathJax-Span-521"><span id="MathJax-Span-522"><span style="display: inline-block; position: relative; width: 1.942em; height: 0px;"><span style="position: absolute; clip: rect(1.68em 1000em 2.676em -0.417em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-523" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.518em;"></span></span><span style="position: absolute; top: -2.094em; left: 0.736em;"><span id="MathJax-Span-524"><span id="MathJax-Span-525"><span id="MathJax-Span-526" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-527" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-528" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.256em;"></span></span></span></span><span id="MathJax-Span-529" style="font-family: MathJax_Main; padding-left: 0.212em;">+</span><span id="MathJax-Span-530" style="font-family: MathJax_Math-italic; padding-left: 0.212em;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span id="MathJax-Span-531" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.212em;"></span></span><span id="MathJax-Span-532" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-533"><span style="display: inline-block; position: relative; width: 0.998em; height: 0px;"><span style="position: absolute; clip: rect(1.68em 1000em 2.676em -0.417em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-534" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.055em;"></span></span><span style="display: inline-block; width: 0px; height: 2.518em;"></span></span><span style="position: absolute; top: -2.094em; left: 0.632em;"><span id="MathJax-Span-535" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.256em;"></span></span></span></span><span id="MathJax-Span-536" style="font-family: MathJax_Main; padding-left: 0.212em;">+</span><span id="MathJax-Span-537" style="font-family: MathJax_Main; padding-left: 0.212em;">1</span><span id="MathJax-Span-538" style="font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.728em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.169em; vertical-align: -0.331em;"></span></span></nobr></span></font>: <br><span></span><div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-24-Frame"><nobr><span id="MathJax-Span-539" style="width: 22.708em; display: inline-block;"><span style="display: inline-block; position: relative; width: 21.387em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.198em 1000em 2.582em -0.311em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-540"><span id="MathJax-Span-541" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 21.009em; height: 0px;"><span style="position: absolute; clip: rect(3.085em 1000em 4.469em -0.5em); top: -4.022em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 21.009em; height: 0px;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.5em); top: -2.764em; right: 0.003em;"><span id="MathJax-Span-542"><span id="MathJax-Span-543"><span id="MathJax-Span-544" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-545" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-546"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-547" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-548" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-549" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-550" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-551" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-552" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-553"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-554" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-555" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-556" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-557" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-558" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">α</span><span id="MathJax-Span-559" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-560"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-561" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-562"><span id="MathJax-Span-563"><span id="MathJax-Span-564" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-565" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-566" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-567" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-568" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span id="MathJax-Span-569" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-570" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-571"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-572" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-573" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-574" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-575" style="font-family: MathJax_Main; padding-left: 0.255em;">1</span><span id="MathJax-Span-576" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-577" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-578" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-579" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-580"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-581" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-582" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-583" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-584" style="font-family: MathJax_Main;">)</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.27em; vertical-align: -0.33em;"></span></span></nobr></span></div> <br>
其中，<span></span><span id="MathJax-Element-25-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-585" style="width: 8.619em; display: inline-block;"><span style="display: inline-block; position: relative; width: 8.116em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-586"><span id="MathJax-Span-587"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-588" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-589"><span id="MathJax-Span-590"><span id="MathJax-Span-591" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-592" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-593" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-594" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-595" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span id="MathJax-Span-596" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-597" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-598"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-599" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-600" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-601" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-602" style="font-family: MathJax_Main; padding-left: 0.255em;">1</span><span id="MathJax-Span-603" style="font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>是 <strong>TD target</strong>, <br><span></span><span id="MathJax-Element-26-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-604" style="width: 14.846em; display: inline-block;"><span style="display: inline-block; position: relative; width: 13.965em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-605"><span id="MathJax-Span-606"><span style="display: inline-block; position: relative; width: 0.758em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-607" style="font-family: MathJax_Math-italic;">δ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.443em;"><span id="MathJax-Span-608"><span id="MathJax-Span-609"><span id="MathJax-Span-610" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-611" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-612" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-613" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-614"><span id="MathJax-Span-615"><span id="MathJax-Span-616" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-617" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-618" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-619" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-620" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span id="MathJax-Span-621" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-622" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-623"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-624" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-625" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-626" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-627" style="font-family: MathJax_Main; padding-left: 0.255em;">1</span><span id="MathJax-Span-628" style="font-family: MathJax_Main;">)</span><span id="MathJax-Span-629" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-630" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-631" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-632"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-633" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-634" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-635" style="font-family: MathJax_Main;">)</span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>是 <strong>TD error</strong>, 代表了估计前后return的差值</li>
<li><strong>平衡Bias/Variance是机器学习比较经典的一个问题，bias是指预测结果与真实结果的差值，variance是指训练集每次预测结果之间的差值，bias过大会导致欠拟合它衡量了模型是否准确，variance过大会导致过拟合衡量了模型是否稳定。</strong></li>
<li>TD算法的相对缺点：因为TD target是估计值，估计是有误差的，这就会导致更新得到value是有偏差的。很难做到无偏估计。</li>
<li>TD算法的相对优点：TD target 是每一个 step 进行估计的，仅最近的动作对其有影响，而 MC 的 result 则受到整个时间片中动作的影响，因此 TD target 的方差 variance 会比较低，也就是波动性小。</li>
<li>具体对比如下图所示： <br><center><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFME5DOWtZamhqT0dRNU56WTNOekJsTjJRd09HSTRaakV6WVRZd09UVXlZams0T0M1S1VFVkg=" alt="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction" title="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction"></center> </li>
<li>在David Silver的课件中，有三张图，很直观地对比了MC，TD以及DP的不同： <br><center><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprME5TOHlPREprWlRFMlkyUTROVEEyWm1KbE9UWTBZekV4TjJRd1pqTm1aRFZtTVM1S1VFVkg=" alt="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction" title="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction"></center> <br><center><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpReEx6azNNV05qTkRBNU5USTRZVGN5TWpJNE56a3lOREpoWlRNNU9UaGxPREV4TGtwUVJVYz0=" alt="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction" title="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction"></center> <br><center><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpNMUx6Z3dNbVkwWmpOaE16UmhNelptTkROalpqTmtaVEZqTVdJeE1UWTNObUppTGtwUVJVYz0=" alt="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction" title="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction"></center> <br>
从上面可以很清楚的看到三者的不同。DP就是理想化的情况，遍历所有。MC现实一点，TD最现实，但是TD也最不准确。但是没关系，反复迭代之下，还是可以收敛的。</li>
<li>整个增强学习算法也都在上面的范畴里： <br><center><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFeE5DODBaVE0yTmpFMk16Y3dOMlptWkRWbE1tTTVNak5rWXpVNE9XSXdNRGRtTWk1S1VFVkg=" alt="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction" title="David Silver《Reinforcement Learning》课程解读—— Lecture 4： Model-Free Prediction"></center> <br><center></center> </li>
<li>上面的图是用Policy Evaluation解决强化学习问题的一些算法的区别与相关性，最左边的竖线表示如果考虑了所有的可能发生的情况那么就是动态规划，如果只考虑了部分采样那么就是时序差分。下面的横线表示如果考虑了一次episode中全部的动作就是Monte-Carlo，如果只考虑部分动作就是时序差分。如果又考虑全部情况又考虑每一种情况的全部动作就是穷举。</li>
</ul>
</li>
</ol>
<hr>
<h3><strong>4. TD<span></span><span id="MathJax-Element-27-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-636" style="width: 1.435em; display: inline-block;"><span style="display: inline-block; position: relative; width: 1.347em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.874em 1000em 3.073em -0.174em); top: -2.719em; left: 0.001em;"><span id="MathJax-Span-637"><span id="MathJax-Span-638"><span id="MathJax-Span-639" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-640" style="font-family: MathJax_Math-italic;">λ</span><span id="MathJax-Span-641" style="font-family: MathJax_Main;">)</span></span></span><span style="display: inline-block; width: 0px; height: 2.722em;"></span></span></span><span style="border-left: 0.002em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.118em; vertical-align: -0.309em;"></span></span></nobr></span></strong></h3>
<ol>
<li>
<strong>思想</strong> <br><ul>
<li>
<span></span><span id="MathJax-Element-28-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-642" style="width: 3.211em; display: inline-block;"><span style="display: inline-block; position: relative; width: 3.022em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.563em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-643"><span id="MathJax-Span-644" style="font-family: MathJax_Math-italic;">T<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.129em;"></span></span><span id="MathJax-Span-645" style="font-family: MathJax_Math-italic;">D</span><span id="MathJax-Span-646" style="padding-left: 0.192em;"><span id="MathJax-Span-647" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-648" style="font-family: MathJax_Main;">0</span><span id="MathJax-Span-649" style="font-family: MathJax_Main;">)</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>: 在某个状态<span></span><span id="MathJax-Element-29-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-650" style="width: 0.758em; display: inline-block;"><span style="display: inline-block; position: relative; width: 0.695em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-651"><span id="MathJax-Span-652" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 0.937em; vertical-align: -0.063em;"></span></span></nobr></span>下执行某个动作后转移到下一个状态<span></span><span id="MathJax-Element-30-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-653" style="width: 1.072em; display: inline-block;"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.135em 1000em 2.33em -0.5em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-654"><span id="MathJax-Span-655"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-656"><span id="MathJax-Span-657"><span id="MathJax-Span-658" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.758em;"><span id="MathJax-Span-659" style="font-size: 70.7%; font-family: MathJax_Main;">′</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.07em; vertical-align: -0.063em;"></span></span></nobr></span>时，估计<span></span><span id="MathJax-Element-31-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-660" style="width: 1.072em; display: inline-block;"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.135em 1000em 2.33em -0.5em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-661"><span id="MathJax-Span-662"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-663"><span id="MathJax-Span-664"><span id="MathJax-Span-665" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.758em;"><span id="MathJax-Span-666" style="font-size: 70.7%; font-family: MathJax_Main;">′</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.07em; vertical-align: -0.063em;"></span></span></nobr></span>的return再更新S。</li>
<li>若<span></span><span id="MathJax-Element-32-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-667" style="width: 0.758em; display: inline-block;"><span style="display: inline-block; position: relative; width: 0.695em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-668"><span id="MathJax-Span-669" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 0.937em; vertical-align: -0.063em;"></span></span></nobr></span>之后执行2次动作转移到<span></span><span id="MathJax-Element-33-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-670" style="width: 1.261em; display: inline-block;"><span style="display: inline-block; position: relative; width: 1.198em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.135em 1000em 2.33em -0.5em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-671"><span id="MathJax-Span-672"><span style="display: inline-block; position: relative; width: 1.198em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-673"><span id="MathJax-Span-674"><span id="MathJax-Span-675" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.758em;"><span id="MathJax-Span-676" style="font-size: 70.7%; font-family: MathJax_Main;">′′</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.07em; vertical-align: -0.063em;"></span></span></nobr></span>时再返回来更新<span></span><span id="MathJax-Element-34-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-677" style="width: 0.758em; display: inline-block;"><span style="display: inline-block; position: relative; width: 0.695em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-678"><span id="MathJax-Span-679" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 0.937em; vertical-align: -0.063em;"></span></span></nobr></span>的值函数，那么就是另外一种形式，从而根据step的长度n可以扩展TD到不同形式，当step的长度达到episode的终点时就变成了MC，从而得到统一公式如下： <br><span></span><div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-35-Frame"><nobr><span id="MathJax-Span-680" style="width: 23.714em; display: inline-block;"><span style="display: inline-block; position: relative; width: 22.33em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.135em 1000em 2.645em -0.311em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-681"><span id="MathJax-Span-682" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 21.953em; height: 0px;"><span style="position: absolute; clip: rect(3.022em 1000em 4.531em -0.5em); top: -4.022em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 21.953em; height: 0px;"><span style="position: absolute; clip: rect(1.701em 1000em 3.211em -0.5em); top: -2.701em; right: 0.003em;"><span id="MathJax-Span-683"><span id="MathJax-Span-684"><span id="MathJax-Span-685"><span style="display: inline-block; position: relative; width: 1.261em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-686" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-687"><span id="MathJax-Span-688"><span id="MathJax-Span-689" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-690" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-691" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-692" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-693"><span id="MathJax-Span-694"><span id="MathJax-Span-695" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-696" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-697" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-698" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-699" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span id="MathJax-Span-700"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-701" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-702"><span id="MathJax-Span-703"><span id="MathJax-Span-704" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-705" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-706" style="font-size: 70.7%; font-family: MathJax_Main;">2</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-707" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-708" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-709" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-710" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-711" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-712" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.896em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-713" style="font-family: MathJax_Math-italic;">γ<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.569em;"><span id="MathJax-Span-714"><span id="MathJax-Span-715"><span id="MathJax-Span-716" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span><span id="MathJax-Span-717" style="font-size: 70.7%; font-family: MathJax_Main;">−</span><span id="MathJax-Span-718" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-719"><span style="display: inline-block; position: relative; width: 2.079em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-720" style="font-family: MathJax_Math-italic;">R</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.758em;"><span id="MathJax-Span-721"><span id="MathJax-Span-722"><span id="MathJax-Span-723" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-724" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-725" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-726" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-727" style="padding-left: 0.255em;"><span style="display: inline-block; position: relative; width: 0.947em; height: 0px;"><span style="position: absolute; clip: rect(1.89em 1000em 2.708em -0.563em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-728" style="font-family: MathJax_Math-italic;">r</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.443em;"><span id="MathJax-Span-729"><span id="MathJax-Span-730"><span id="MathJax-Span-731" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-732" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-733" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-734"><span style="display: inline-block; position: relative; width: 2.016em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-735" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-736"><span id="MathJax-Span-737"><span id="MathJax-Span-738" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span id="MathJax-Span-739" style="font-size: 70.7%; font-family: MathJax_Main;">+</span><span id="MathJax-Span-740" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-741" style="font-family: MathJax_Main;">)</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.337em; vertical-align: -0.397em;"></span></span></nobr></span></div>
</li>
</ul>
</li>
</ol>
<p><span></span></p>
<div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-64-Frame"><nobr><span id="MathJax-Span-1591" style="width: 17.236em; display: inline-block;"><span style="display: inline-block; position: relative; width: 16.23em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(0.821em 1000em 2.959em -0.311em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-1592"><span id="MathJax-Span-1593" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 15.852em; height: 0px;"><span style="position: absolute; clip: rect(2.708em 1000em 4.846em -0.5em); top: -4.022em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 15.852em; height: 0px;"><span style="position: absolute; clip: rect(2.456em 1000em 4.594em -0.5em); top: -3.77em; right: 0.003em;"><span id="MathJax-Span-1594"><span id="MathJax-Span-1595"><span id="MathJax-Span-1596" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-1597" style="padding-left: 0.192em;"><span id="MathJax-Span-1598" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-1599"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1600" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-1601"><span id="MathJax-Span-1602"><span id="MathJax-Span-1603" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-1604" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-1605" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-1606" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-1607" style="padding-left: 0.192em;"><span id="MathJax-Span-1608" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-1609"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1610" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-1611"><span id="MathJax-Span-1612"><span id="MathJax-Span-1613" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-1614" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-1615" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-1616" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">α</span><span id="MathJax-Span-1617" style="padding-left: 0.192em;"><span id="MathJax-Span-1618" style="vertical-align: 0.003em;"><span style="font-family: MathJax_Size2;">(</span></span><span id="MathJax-Span-1619"><span style="display: inline-block; position: relative; width: 1.764em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1620" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; clip: rect(1.575em 1000em 2.645em -0.5em); top: -2.764em; left: 0.758em;"><span id="MathJax-Span-1621"><span id="MathJax-Span-1622"><span id="MathJax-Span-1623"><span id="MathJax-Span-1624" style="font-size: 70.7%; font-family: MathJax_Main;">(</span><span id="MathJax-Span-1625" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span><span id="MathJax-Span-1626" style="font-size: 70.7%; font-family: MathJax_Main;">)</span></span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.456em -0.563em); top: -2.009em; left: 0.758em;"><span id="MathJax-Span-1627"><span id="MathJax-Span-1628"><span id="MathJax-Span-1629" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-1630" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-1631" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-1632" style="padding-left: 0.192em;"><span id="MathJax-Span-1633" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-1634"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1635" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-1636" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-1637" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-1638" style="vertical-align: 0.003em;"><span style="font-family: MathJax_Size2;">)</span></span></span></span></span><span style="display: inline-block; width: 0px; height: 3.777em;"></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 2.07em; vertical-align: -0.73em;"></span></span></nobr></span></div>
<p></p>
<ul>
<li> <br><ul><li>
<span></span><span id="MathJax-Element-65-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-1639" style="width: 3.274em; display: inline-block;"><span style="display: inline-block; position: relative; width: 3.085em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.563em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-1640"><span id="MathJax-Span-1641" style="font-family: MathJax_Math-italic;">T<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.129em;"></span></span><span id="MathJax-Span-1642" style="font-family: MathJax_Math-italic;">D</span><span id="MathJax-Span-1643" style="padding-left: 0.192em;"><span id="MathJax-Span-1644" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-1645" style="font-family: MathJax_Math-italic;">λ</span><span id="MathJax-Span-1646" style="font-family: MathJax_Main;">)</span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>: 若将不同的n对应的return平均一下，就能获得更加鲁邦的结果，而为了有效地将不同return结合起来，对每个return都赋予了一个权重<span></span><span id="MathJax-Element-66-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-1647" style="width: 17.362em; display: inline-block;"><span style="display: inline-block; position: relative; width: 16.355em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.827em 1000em 3.211em -0.5em); top: -2.764em; left: 0.003em;"><span id="MathJax-Span-1648"><span id="MathJax-Span-1649" style="font-family: MathJax_Main;">1</span><span id="MathJax-Span-1650" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-1651" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">λ</span><span id="MathJax-Span-1652" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-1653" style="padding-left: 0.192em;"><span id="MathJax-Span-1654" style="font-family: MathJax_Main; padding-left: 0.192em;">(</span><span id="MathJax-Span-1655" style="font-family: MathJax_Main;">1</span><span id="MathJax-Span-1656" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-1657" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">λ</span><span id="MathJax-Span-1658" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-1659" style="font-family: MathJax_Math-italic; padding-left: 0.192em;">l</span><span id="MathJax-Span-1660" style="font-family: MathJax_Math-italic;">a</span><span id="MathJax-Span-1661" style="font-family: MathJax_Math-italic;">m</span><span id="MathJax-Span-1662" style="font-family: MathJax_Math-italic;">b</span><span id="MathJax-Span-1663" style="font-family: MathJax_Math-italic;">d<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span id="MathJax-Span-1664" style="font-family: MathJax_Math-italic;">a</span><span id="MathJax-Span-1665" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-1666" style="font-family: MathJax_Main; padding-left: 0.192em;">⋅</span><span id="MathJax-Span-1667" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-1668" style="font-family: MathJax_Main; padding-left: 0.255em;">⋅</span><span id="MathJax-Span-1669" style="font-family: MathJax_Main;">,</span><span id="MathJax-Span-1670" style="padding-left: 0.192em;"><span id="MathJax-Span-1671" style="font-family: MathJax_Main; padding-left: 0.192em;">(</span><span id="MathJax-Span-1672" style="font-family: MathJax_Main;">1</span><span id="MathJax-Span-1673" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-1674" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">λ</span><span id="MathJax-Span-1675" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-1676" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.072em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1677" style="font-family: MathJax_Math-italic;">λ</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.569em;"><span id="MathJax-Span-1678"><span id="MathJax-Span-1679"><span id="MathJax-Span-1680" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 1.203em; vertical-align: -0.33em;"></span></span></nobr></span>，参数是<span></span><span id="MathJax-Element-67-Frame" role="textbox" aria-readonly="true"><nobr><span id="MathJax-Span-1681" style="width: 3.399em; display: inline-block;"><span style="display: inline-block; position: relative; width: 3.211em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1682"><span id="MathJax-Span-1683" style="font-family: MathJax_Math-italic;">l</span><span id="MathJax-Span-1684" style="font-family: MathJax_Math-italic;">a</span><span id="MathJax-Span-1685" style="font-family: MathJax_Math-italic;">m</span><span id="MathJax-Span-1686" style="font-family: MathJax_Math-italic;">b</span><span id="MathJax-Span-1687" style="font-family: MathJax_Math-italic;">d<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.003em;"></span></span><span id="MathJax-Span-1688" style="font-family: MathJax_Math-italic;">a</span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 0.87em; vertical-align: -0.063em;"></span></span></nobr></span>，这样又可以得到一组更新value function公式： <br><span></span><div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-68-Frame"><nobr><span id="MathJax-Span-1689" style="width: 12.016em; display: inline-block;"><span style="display: inline-block; position: relative; width: 11.324em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(0.318em 1000em 3.462em -0.311em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-1690"><span id="MathJax-Span-1691" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 10.947em; height: 0px;"><span style="position: absolute; clip: rect(2.204em 1000em 5.349em -0.5em); top: -4.022em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 10.947em; height: 0px;"><span style="position: absolute; clip: rect(1.009em 1000em 4.154em -0.5em); top: -2.827em; right: 0.003em;"><span id="MathJax-Span-1692"><span id="MathJax-Span-1693"><span id="MathJax-Span-1694"><span style="display: inline-block; position: relative; width: 1.261em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1695" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; clip: rect(1.575em 1000em 2.456em -0.5em); top: -2.701em; left: 0.758em;"><span id="MathJax-Span-1696"><span id="MathJax-Span-1697"><span id="MathJax-Span-1698" style="font-size: 70.7%; font-family: MathJax_Math-italic;">λ</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.456em -0.563em); top: -2.009em; left: 0.758em;"><span id="MathJax-Span-1699"><span id="MathJax-Span-1700"><span id="MathJax-Span-1701" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-1702" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-1703" style="padding-left: 0.255em;"><span id="MathJax-Span-1704" style="font-family: MathJax_Main; padding-left: 0.255em;">(</span><span id="MathJax-Span-1705" style="font-family: MathJax_Main;">1</span><span id="MathJax-Span-1706" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-1707" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">λ</span><span id="MathJax-Span-1708" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-1709" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.45em; height: 0px;"><span style="position: absolute; clip: rect(2.645em 1000em 4.406em -0.5em); top: -3.77em; left: 0.003em;"><span id="MathJax-Span-1710" style="font-family: MathJax_Size2; vertical-align: 0.003em;">∑</span><span style="display: inline-block; width: 0px; height: 3.777em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.582em -0.563em); top: -1.192em; left: 0.066em;"><span id="MathJax-Span-1711"><span id="MathJax-Span-1712"><span id="MathJax-Span-1713" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span><span id="MathJax-Span-1714" style="font-size: 70.7%; font-family: MathJax_Main;">=</span><span id="MathJax-Span-1715" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.456em -0.5em); top: -3.393em; left: 0.381em;"><span id="MathJax-Span-1716"><span id="MathJax-Span-1717"><span id="MathJax-Span-1718" style="font-size: 70.7%; font-family: MathJax_Main;">∞</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-1719" style="padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 1.953em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1720" style="font-family: MathJax_Math-italic;">λ</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.701em; left: 0.569em;"><span id="MathJax-Span-1721"><span id="MathJax-Span-1722"><span id="MathJax-Span-1723" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span><span id="MathJax-Span-1724" style="font-size: 70.7%; font-family: MathJax_Main;">−</span><span id="MathJax-Span-1725" style="font-size: 70.7%; font-family: MathJax_Main;">1</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-1726"><span style="display: inline-block; position: relative; width: 1.261em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-1727" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; clip: rect(1.764em 1000em 2.456em -0.563em); top: -2.701em; left: 0.758em;"><span id="MathJax-Span-1728"><span id="MathJax-Span-1729"><span id="MathJax-Span-1730" style="font-size: 70.7%; font-family: MathJax_Math-italic;">n</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.456em -0.563em); top: -2.009em; left: 0.758em;"><span id="MathJax-Span-1731"><span id="MathJax-Span-1732"><span id="MathJax-Span-1733" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.77em;"></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 3.07em; vertical-align: -1.263em;"></span></span></nobr></span></div>
</li></ul>
</li>
</ul>
<p><span></span></p>
<div class="MathJax_Display" role="textbox" aria-readonly="true" style="text-align: center;"><span id="MathJax-Element-41-Frame"><nobr><span id="MathJax-Span-885" style="width: 16.67em; display: inline-block;"><span style="display: inline-block; position: relative; width: 15.726em; height: 0px; font-size: 106%;"><span style="position: absolute; clip: rect(0.821em 1000em 2.959em -0.311em); top: -2.135em; left: 0.003em;"><span id="MathJax-Span-886"><span id="MathJax-Span-887" style="padding-right: 0.192em; padding-left: 0.192em;"><span style="display: inline-block; position: relative; width: 15.349em; height: 0px;"><span style="position: absolute; clip: rect(2.708em 1000em 4.846em -0.5em); top: -4.022em; left: 0.003em;"><span style="display: inline-block; position: relative; width: 15.349em; height: 0px;"><span style="position: absolute; clip: rect(2.456em 1000em 4.594em -0.5em); top: -3.77em; right: 0.003em;"><span id="MathJax-Span-888"><span id="MathJax-Span-889"><span id="MathJax-Span-890" style="font-family: MathJax_Math-italic;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-891" style="padding-left: 0.192em;"><span id="MathJax-Span-892" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-893"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-894" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-895" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-896" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-897" style="font-family: MathJax_Main; padding-left: 0.255em;">=</span><span id="MathJax-Span-898" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-899" style="padding-left: 0.192em;"><span id="MathJax-Span-900" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-901"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-902" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-903" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-904" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-905" style="font-family: MathJax_Main; padding-left: 0.255em;">+</span><span id="MathJax-Span-906" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">α</span><span id="MathJax-Span-907" style="padding-left: 0.192em;"><span id="MathJax-Span-908" style="vertical-align: 0.003em;"><span style="font-family: MathJax_Size2;">(</span></span><span id="MathJax-Span-909"><span style="display: inline-block; position: relative; width: 1.261em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-910" style="font-family: MathJax_Math-italic;">G</span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; clip: rect(1.575em 1000em 2.456em -0.5em); top: -2.701em; left: 0.758em;"><span id="MathJax-Span-911"><span id="MathJax-Span-912"><span id="MathJax-Span-913" style="font-size: 70.7%; font-family: MathJax_Math-italic;">λ</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span><span style="position: absolute; clip: rect(1.638em 1000em 2.456em -0.563em); top: -2.009em; left: 0.758em;"><span id="MathJax-Span-914"><span id="MathJax-Span-915"><span id="MathJax-Span-916" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span></span></span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-917" style="font-family: MathJax_Main; padding-left: 0.255em;">−</span><span id="MathJax-Span-918" style="font-family: MathJax_Math-italic; padding-left: 0.255em;">V<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.192em;"></span></span><span id="MathJax-Span-919" style="padding-left: 0.192em;"><span id="MathJax-Span-920" style="font-family: MathJax_Main;">(</span><span id="MathJax-Span-921"><span style="display: inline-block; position: relative; width: 1.009em; height: 0px;"><span style="position: absolute; clip: rect(1.638em 1000em 2.708em -0.5em); top: -2.513em; left: 0.003em;"><span id="MathJax-Span-922" style="font-family: MathJax_Math-italic;">S<span style="display: inline-block; overflow: hidden; height: 1px; width: 0.066em;"></span></span><span style="display: inline-block; width: 0px; height: 2.519em;"></span></span><span style="position: absolute; top: -2.135em; left: 0.632em;"><span id="MathJax-Span-923" style="font-size: 70.7%; font-family: MathJax_Math-italic;">t</span><span style="display: inline-block; width: 0px; height: 2.267em;"></span></span></span></span><span id="MathJax-Span-924" style="font-family: MathJax_Main;">)</span></span><span id="MathJax-Span-925" style="vertical-align: 0.003em;"><span style="font-family: MathJax_Size2;">)</span></span></span></span></span><span style="display: inline-block; width: 0px; height: 3.777em;"></span></span></span><span style="display: inline-block; width: 0px; height: 4.028em;"></span></span></span></span></span><span style="display: inline-block; width: 0px; height: 2.142em;"></span></span></span><span style="border-left: 0.003em solid; display: inline-block; overflow: hidden; width: 0px; height: 2.07em; vertical-align: -0.73em;"></span></span></nobr></span></div>
<p></p>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">来源网络，如有侵犯到您的权益请联系进行下架处理</p>')  
            }) 
</script> 
</body>
</html>