array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>RNN、LSTM、GRU - 爱码网</title>
     
<meta name="keywords" content="RNN、LSTM、GRU" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-203588886.html" title="RNN、LSTM、GRU">RNN、LSTM、GRU</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2021-08-26">2021-08-26</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<ul>
<li>近年来循环神经网络在自然语言处理，语音技术，甚至图像方面都有不错的应用。本文主要介绍基础的RNN，RNN所面对的问题，以及RNN的改进版本：LSTM和GRU</li>
</ul>
<h3>
<a target="_blank" rel="nofollow"></a>RNN(Recurrent Neural Network)</h3>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFMk1TOHdNR1ZqWXpneFpqRXlaVEppT1dWaVpHSmtaVEZtWTJFeE5tTXhNRE01T1M1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU"></p>
<ul>
<li>我们先放一张RNN的结构图，一般的RNN也遵循这个过程。输入是x1～xt，绿色的方框表示处理单元，<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">h_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>表示的是隐藏单元，<span><span><span><math><semantics><mrow><msub><mi>y</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">y_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>表示的是输出。对于不同的输入<span><span><span><math><semantics><mrow><msub><mi>x</mi><mi>i</mi></msub><mo separator="true">,</mo><msub><mi>h</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">x_i,h_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>，RNN的cell(一个绿色框)都是彼此之间共享参数的。</li>
<li>一般来说RNN的计算过程分成下面的步骤：
<ol>
<li>构造数据，形成{x1,x2, …, xt}的sample</li>
<li>将<span><span><span><math><semantics><mrow><msub><mi>x</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">x_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.58056em; vertical-align: -0.15em;"></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>输入给第<span><span><span><math><semantics><mrow><mi>i</mi></mrow><annotation encoding="application/x-tex">i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.65952em; vertical-align: 0em;"></span><span>i</span></span></span></span></span>个单元,进行计算，分别得到<span><span><span><math><semantics><mrow><msub><mi>y</mi><mi>i</mi></msub><mo separator="true">,</mo><msub><mi>h</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">y_i, h_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>
</li>
<li>重复上述第二步，得到<span><span><span><math><semantics><mrow><msub><mi>y</mi><mn>0</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>y</mi><mi>n</mi></msub></mrow><annotation encoding="application/x-tex">y_0,...,y_n</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>0</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>n</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>,计算loss</li>
<li>反向传播，更新绿色框中的参数</li>
<li>重复1～4，直到网络收敛</li>
</ol>
</li>
<li>那么绿色框中到底是什么呢？他是怎么做到记录了上一个输入的信息呢？</li>
<li>Standard RNN Cell
<ul>
<li>标准的RNN cell如下图所示，它里面其实就是封装了一层神经网络和一个非线性处理单元。<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprMk9TODRORFppWXpVM1pURmhZbU0zTVRoaU5qbGtOV05qTWprMU1qQTVZV1ExT1M1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>公式化如下：
<ul>
<li>
<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub><mo>=</mo><mi>f</mi><mo>(</mo><msup><mi>W</mi><mrow><mi>h</mi><mi>h</mi></mrow></msup><msub><mi>h</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msup><mi>W</mi><mrow><mi>h</mi><mi>x</mi></mrow></msup><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">h_i = f(W^{hh}h_{i-1} + W^{hx}x_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.09911em; vertical-align: -0.25em;"></span><span style="margin-right: 0.10764em;">f</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.849108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>h</span><span>h</span></span></span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.09911em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.849108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>h</span><span>x</span></span></span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>，其中<span><span><span><math><semantics><mrow><mi>f</mi></mrow><annotation encoding="application/x-tex">f</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.10764em;">f</span></span></span></span></span>代表非线性**函数，例如sigmoid(下面会以其举例说明RNN缺点)。</li>
<li>
<span><span><span><math><semantics><mrow><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mi>s</mi><mi>o</mi><mi>f</mi><mi>t</mi><mi>m</mi><mi>a</mi><mi>x</mi><mo>(</mo><msup><mi>W</mi><mi>y</mi></msup><msub><mi>h</mi><mi>i</mi></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">y_i = softmax(W^{y}h_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>s</span><span>o</span><span style="margin-right: 0.10764em;">f</span><span>t</span><span>m</span><span>a</span><span>x</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.664392em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.03588em;">y</span></span></span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>,其中y是输出。</li>
</ul>
</li>
<li>它是怎么记下过去的信息的呢？是通过隐藏状态<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">h_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>记下的。我的理解是是因为我们通过BP优化的是它，所以赋予了<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">h_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>这么个意义，至于怎么证明<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">h_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>就是过去的信息，还有待探索。</li>
<li>缺点：如果输入sample里面时刻太长的话，可能会导致梯度消失，从而忘记<strong>很早时刻</strong>的信息。
<ul>
<li>为了从数学的角度说明上面那一点，我们就先从BP推导起来。</li>
<li>假设<span><span><span><math><semantics><mrow><mi>E</mi></mrow><annotation encoding="application/x-tex">E</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.05764em;">E</span></span></span></span></span>表示损失函数,令<span><span><span><math><semantics><mrow><mi>s</mi><mo>=</mo><msup><mi>W</mi><mi>y</mi></msup><mi>h</mi><mo separator="true">,</mo><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mi>s</mi><mi>o</mi><mi>f</mi><mi>t</mi><mi>m</mi><mi>a</mi><mi>x</mi><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">s=W^{y}h, y_i=softmax(s_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>s</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.664392em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.03588em;">y</span></span></span></span></span></span></span></span></span><span>h</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>s</span><span>o</span><span style="margin-right: 0.10764em;">f</span><span>t</span><span>m</span><span>a</span><span>x</span><span>(</span><span><span>s</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>
</li>
<li><span><span><span><math><semantics><mrow><mfrac><mrow><mi mathvariant="normal">∂</mi><mi>E</mi></mrow><mrow><mi mathvariant="normal">∂</mi><msup><mi>W</mi><mrow><mi>h</mi><mi>h</mi></mrow></msup></mrow></mfrac><mo>=</mo><msubsup><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></msubsup><mrow><mfrac><mrow><mi mathvariant="normal">∂</mi><mi>E</mi></mrow><mrow><mi mathvariant="normal">∂</mi><mi>y</mi></mrow></mfrac><mo>∗</mo><mfrac><mrow><mi mathvariant="normal">∂</mi><mi>y</mi></mrow><mrow><mi mathvariant="normal">∂</mi><mi>s</mi></mrow></mfrac><mo>∗</mo><mfrac><mrow><mi mathvariant="normal">∂</mi><mi>s</mi></mrow><mrow><mi mathvariant="normal">∂</mi><msub><mi>h</mi><mi>i</mi></msub></mrow></mfrac><mo>∗</mo><mfrac><mrow><mi mathvariant="normal">∂</mi><msub><mi>h</mi><mi>i</mi></msub></mrow><mrow><mi mathvariant="normal">∂</mi><msup><mi>W</mi><mrow><mi>h</mi><mi>h</mi></mrow></msup></mrow></mfrac></mrow></mrow><annotation encoding="application/x-tex">\frac{\partial E}{\partial W^{hh}}=\sum_{i=1}^k{\frac{\partial E}{\partial y} * \frac{\partial y}{\partial s} * \frac{\partial s}{\partial h_i} * \frac{\partial h_i}{\partial W^{hh}}}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.23753em; vertical-align: -0.35742em;"></span><span><span></span><span><span><span><span style="height: 0.880108em;"><span style="top: -2.64258em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.782029em;"><span style="top: -2.786em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span><span>h</span><span>h</span></span></span></span></span></span></span></span></span></span></span></span><span style="top: -3.23em;"><span style="height: 3em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.394em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span style="margin-right: 0.05764em;">E</span></span></span></span></span><span>​</span></span><span><span style="height: 0.35742em;"><span></span></span></span></span></span><span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.47012em; vertical-align: -0.481108em;"></span><span><span style="position: relative; top: -5e-06em;">∑</span><span><span><span><span style="height: 0.989008em;"><span style="top: -2.40029em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>=</span><span>1</span></span></span></span><span style="top: -3.2029em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.29971em;"><span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span><span><span></span><span><span><span><span style="height: 0.880108em;"><span style="top: -2.655em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span style="margin-right: 0.03588em;">y</span></span></span></span><span style="top: -3.23em;"><span style="height: 3em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.394em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span style="margin-right: 0.05764em;">E</span></span></span></span></span><span>​</span></span><span><span style="height: 0.481108em;"><span></span></span></span></span></span><span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span><span><span></span><span><span><span><span style="height: 0.932216em;"><span style="top: -2.655em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span>s</span></span></span></span><span style="top: -3.23em;"><span style="height: 3em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.44611em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span style="margin-right: 0.03588em;">y</span></span></span></span></span><span>​</span></span><span><span style="height: 0.345em;"><span></span></span></span></span></span><span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span><span><span></span><span><span><span><span style="height: 0.880108em;"><span style="top: -2.655em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span><span>h</span><span><span><span><span style="height: 0.328086em;"><span style="top: -2.357em; margin-left: 0em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span><span style="top: -3.23em;"><span style="height: 3em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.394em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span>s</span></span></span></span></span><span>​</span></span><span><span style="height: 0.4451em;"><span></span></span></span></span></span><span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span><span><span></span><span><span><span><span style="height: 0.896208em;"><span style="top: -2.64258em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.782029em;"><span style="top: -2.786em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span><span>h</span><span>h</span></span></span></span></span></span></span></span></span></span></span></span><span style="top: -3.23em;"><span style="height: 3em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.4101em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span><span>h</span><span><span><span><span style="height: 0.328086em;"><span style="top: -2.357em; margin-left: 0em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.35742em;"><span></span></span></span></span></span><span></span></span></span></span></span></span></span></li>
<li>其中<span><span><span><math><semantics><mrow><mi>i</mi></mrow><annotation encoding="application/x-tex">i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.65952em; vertical-align: 0em;"></span><span>i</span></span></span></span></span>表示的第i时刻，<span><span><span><math><semantics><mrow><mi>k</mi></mrow><annotation encoding="application/x-tex">k</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span style="margin-right: 0.03148em;">k</span></span></span></span></span>表示的是一共有<span><span><span><math><semantics><mrow><mi>k</mi></mrow><annotation encoding="application/x-tex">k</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span style="margin-right: 0.03148em;">k</span></span></span></span></span>个时刻。</li>
<li>我们知道，在计算第<span><span><span><math><semantics><mrow><mi>i</mi></mrow><annotation encoding="application/x-tex">i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.65952em; vertical-align: 0em;"></span><span>i</span></span></span></span></span>时刻的梯度的时候，它与<span><span><span><math><semantics><mrow><mi>i</mi><mo>+</mo><mn>1</mn><mo>−</mo><mo>&amp;gt;</mo><mi>k</mi></mrow><annotation encoding="application/x-tex">i+1-&amp;gt;k</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.74285em; vertical-align: -0.08333em;"></span><span>i</span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.72777em; vertical-align: -0.08333em;"></span><span>1</span><span>−</span><span style="margin-right: 0.277778em;"></span><span>&gt;</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span style="margin-right: 0.03148em;">k</span></span></span></span></span>时刻都有关系。并且这种关系表现在梯度上是惩罚的关系。所以我们可以得到下面的等式</li>
<li><span><span><span><math><semantics><mrow><mfrac><mrow><mi mathvariant="normal">∂</mi><mi>s</mi></mrow><mrow><mi mathvariant="normal">∂</mi><msub><mi>h</mi><mi>i</mi></msub></mrow></mfrac><mo>=</mo><msubsup><mi mathvariant="normal">Π</mi><mrow><mi>j</mi><mo>=</mo><mi>i</mi><mo>+</mo><mn>1</mn></mrow><mi>k</mi></msubsup><mfrac><mrow><mi mathvariant="normal">∂</mi><msub><mi>h</mi><mi>j</mi></msub></mrow><mrow><mi mathvariant="normal">∂</mi><msub><mi>h</mi><mrow><mi>j</mi><mo>−</mo><mn>1</mn></mrow></msub></mrow></mfrac><mo>=</mo><msubsup><mi mathvariant="normal">Π</mi><mrow><mi>j</mi><mo>=</mo><mi>i</mi><mo>+</mo><mn>1</mn></mrow><mi>k</mi></msubsup><mrow><msup><mi>f</mi><mo mathvariant="normal">′</mo></msup><mo>(</mo><msub><mi>h</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><annotation encoding="application/x-tex">\frac{\partial s}{\partial h_i} = \Pi_{j=i+1}^k{\frac{\partial h_j}{\partial h_{j-1}}}=\Pi_{j=i+1}^k{f&amp;#x27;(h_j)}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.32521em; vertical-align: -0.4451em;"></span><span><span></span><span><span><span><span style="height: 0.880108em;"><span style="top: -2.655em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span><span>h</span><span><span><span><span style="height: 0.328086em;"><span style="top: -2.357em; margin-left: 0em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span><span style="top: -3.23em;"><span style="height: 3em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.394em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span>s</span></span></span></span></span><span>​</span></span><span><span style="height: 0.4451em;"><span></span></span></span></span></span><span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.53575em; vertical-align: -0.54232em;"></span><span><span>Π</span><span><span><span><span style="height: 0.849108em;"><span style="top: -2.44134em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.05724em;">j</span><span>=</span><span>i</span><span>+</span><span>1</span></span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.394772em;"><span></span></span></span></span></span></span><span><span><span></span><span><span><span><span style="height: 0.993428em;"><span style="top: -2.655em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span><span>h</span><span><span><span><span style="height: 0.328086em;"><span style="top: -2.357em; margin-left: 0em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span><span style="margin-right: 0.05724em;">j</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.281886em;"><span></span></span></span></span></span></span></span></span></span><span style="top: -3.23em;"><span style="height: 3em;"></span><span style="border-bottom-width: 0.04em;"></span></span><span style="top: -3.50732em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.05556em;">∂</span><span><span>h</span><span><span><span><span style="height: 0.328086em;"><span style="top: -2.357em; margin-left: 0em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span></span><span>​</span></span><span><span style="height: 0.281886em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.54232em;"><span></span></span></span></span></span><span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.24388em; vertical-align: -0.394772em;"></span><span><span>Π</span><span><span><span><span style="height: 0.849108em;"><span style="top: -2.44134em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.05724em;">j</span><span>=</span><span>i</span><span>+</span><span>1</span></span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.394772em;"><span></span></span></span></span></span></span><span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span><span>(</span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span></span></li>
<li>正如我们上面所说,f(x) = sigmoid，其导数范围在0～1之间，如果我们有多个小数相乘的话，就会导致梯度为0，从而导致梯度消失。</li>
<li>
<strong>注意</strong>，我们这里的梯度消失只是针对比较靠前的输入来说，说明其输入没有起到合适的作用(梯度为0)。但是对于靠后的输入来说梯度还是存在的。因为观察上面的公式我们就可以得到靠后的梯度j~k连乘的次数少。</li>
<li>至此，我们说了<span><span><span><math><semantics><mrow><msub><mi>W</mi><mrow><mi>h</mi><mi>h</mi></mrow></msub></mrow><annotation encoding="application/x-tex">W_{hh}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>h</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>在long sequence的传播过程中是如何产生梯度消失问题的。注意<span><span><span><math><semantics><mrow><msub><mi>W</mi><mi>y</mi></msub></mrow><annotation encoding="application/x-tex">W_{y}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.03588em;">y</span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span></span></span></span></span>应该是不会有这个问题的。因为它一般只会更新一次(如果我们只用<span><span><span><math><semantics><mrow><msub><mi>y</mi><mi>k</mi></msub></mrow><annotation encoding="application/x-tex">y_k</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>去计算loss的话)。同理<span><span><span><math><semantics><mrow><msub><mi>W</mi><mrow><mi>h</mi><mi>x</mi></mrow></msub></mrow><annotation encoding="application/x-tex">W_{hx}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>h</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>也是会存在这个问题的。</li>
</ul>
</li>
<li>如何解决梯度消失问题呢？sigmoid既然梯度为0，那么relu呢？relu可能会导致梯度爆炸问题。因为relu(x) = x，他没有限制x的取值范围。此外relu的导数是一个常数，他不会随着x的变化而变化。sigmoid通过限制输出的大小，从而限制的整个网络的幅度。那么如何结合relu的问题的？可以使用Batch Normalization, 参考<a href="https://blog.csdn.net/liangdong2014/article/details/85244265" rel="nofollow" target="_blank">这篇博文</a>。</li>
<li>请看下面LSTM和GRU的解决方案。</li>
</ul>
</li>
</ul>
<h3>
<a target="_blank" rel="nofollow"></a>LSTM (Long Short-term Memory)</h3>
<ul>
<li>正如上面说的普通的RNN会导致梯度消失的问题，那么LSTM是如何解决的呢？</li>
<li>我们先放一张LSTM的cell，如下图所示<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprNU1pODNZV1UwT0RWbU9UWmlaVEZoWkRJNVlXWXhZakE0TTJWaFlXSTBPV1UwTUM1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU"><ul>
<li>LSTM Cell里面有如下几个重要的概念(四门一态)：
<ul>
<li>forget gate</li>
<li>input gate</li>
<li>update gate</li>
<li>output gate</li>
<li>Cell state</li>
</ul>
</li>
<li>forget gate：生成一个mask，决定cell state里面哪些信息应该被遗忘，哪些信息应该被保留。forget可以看成是对cell stage的forget。
<ul>
<li>其是由<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub><mo separator="true">,</mo><msub><mi>x</mi><mi>i</mi></msub><mo separator="true">,</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi></mrow><annotation encoding="application/x-tex">h_i, x_i, sigmoid</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span></span></span></span></span>组成，如下图所示<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprMU55ODJORGRoTW1VeFlqWmxZakJoWm1aak1tUTBOamt6T1dVM01XRTBNV1F6TlM1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>其中f_t就代表forget gate的输出，它表示了我们要选择性的遗忘cell state里面的某些值(对应位置的f_t为0或者是低响应区域)。</li>
<li>从公式的角度来看：<span><span><span><math><semantics><mrow><msub><mi>f</mi><mi>t</mi></msub><mo>=</mo><msub><mi>W</mi><mrow><mi>f</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>f</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">f_t = W_{fh}h_{i-1} + W_{fx}x_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.10764em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.980548em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.10764em;">f</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.10764em;">f</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>
</li>
</ul>
</li>
<li>input gate：决定新的输入中哪些信息应该被加入的cell state中。所以input可以看成是对cell state的输出。
<ul>
<li>其是由<span><span><span><math><semantics><mrow><msub><mi>h</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo separator="true">,</mo><msub><mi>x</mi><mi>i</mi></msub><mo separator="true">,</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi></mrow><annotation encoding="application/x-tex">h_{i-1}, x_i, sigmoid</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.902771em; vertical-align: -0.208331em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span></span></span></span></span>组成，可以看成和forget gate结构一样，但是彼此不共享参数。</li>
<li>其结构图如下所示，<span><span><span><math><semantics><mrow><mover accent="true"><msub><mi>C</mi><mi>i</mi></msub><mo>^</mo></mover></mrow><annotation encoding="application/x-tex">\hat{C_i}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.09677em; vertical-align: -0.15em;"></span><span><span><span><span style="height: 0.94677em;"><span style="top: -3em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span><span style="top: -3.25233em;"><span style="height: 3em;"></span><span style="left: -0.25em;">^</span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span>表示一个新的cell state候选值，其和<span><span><span><math><semantics><mrow><msub><mi>i</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">i_{i}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.80952em; vertical-align: -0.15em;"></span><span><span>i</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>点乘从而决定哪些信息应该被加入新的cell state中。<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpnNU5TODRNMlpoT0dKbVpqWXhZbVU0WldFeVpXSXpNVGRpTkdJMll6STBaamhoWmk1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>数学公式表示：<span><span><span><math><semantics><mrow><msub><mi>i</mi><mi>i</mi></msub><mo>=</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mo>(</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>i</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo><mo separator="true">,</mo><mover accent="true"><msub><mi>C</mi><mi>i</mi></msub><mo>^</mo></mover><mo>=</mo><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi><mo>(</mo><msub><mi>W</mi><mrow><mi>c</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>c</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">i_i=sigmoid(W_{ih}h_{i-1} + W_{ix}x_i), \hat{C_i} = tanh(W_{ch}h_{i-1} + W_{cx}x_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.80952em; vertical-align: -0.15em;"></span><span><span>i</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.19677em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span><span><span style="height: 0.94677em;"><span style="top: -3em;"><span style="height: 3em;"></span><span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span><span style="top: -3.25233em;"><span style="height: 3em;"></span><span style="left: -0.25em;">^</span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>t</span><span>a</span><span>n</span><span>h</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>c</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>c</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>。而这里为什么使用tanh还有待探索。tanh相对于sigmoid是0均值的。</li>
</ul>
</li>
<li>update gate：更新Cell state
<ul>
<li>其是对f和C作点乘，得到过滤掉信息的C，再对其加上因为本次输入需要添加的信息。</li>
<li>结构图如下所示<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpnek5pOWpaRGs1WldObE1XUTJZMll3WTJRek9HTTBNVEkwWXpsak1EQTNaRGt6WXk1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>数学公式表示：<span><span><span><math><semantics><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><msub><mi>C</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>∗</mo><msub><mi>f</mi><mi>i</mi></msub><mo>+</mo><msub><mi>i</mi><mi>i</mi></msub><mo>∗</mo><msub><mover accent="true"><mi>C</mi><mo>^</mo></mover><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">C_i = C_{i-1} * f_i + i_{i} * \hat{C}_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.891661em; vertical-align: -0.208331em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.10764em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.80952em; vertical-align: -0.15em;"></span><span><span>i</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.09677em; vertical-align: -0.15em;"></span><span><span><span><span><span style="height: 0.94677em;"><span style="top: -3em;"><span style="height: 3em;"></span><span><span style="margin-right: 0.07153em;">C</span></span></span><span style="top: -3.25233em;"><span style="height: 3em;"></span><span style="left: -0.16666em;">^</span></span></span></span></span></span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>，前者表示删去应该遗忘的信息后保存下来的信息，后者表示应该加上去的信息。</li>
</ul>
</li>
<li>output gate：生成我们的hidden state
<ul>
<li>其是由h_{i-1}, x_i 和 cell state的非线性映射进行点积运算得到的。</li>
<li>其网络结构图如下所示：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpNd05DOWxPREJoTldVMU5EazVaRFkzT1dZeE1HRTVOMlpsWmpjM05USTFZMk0zT0M1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>数学表示：<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub><mo>=</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mo>(</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo><mo>∗</mo><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">h_i = sigmoid(W_{oh}h_{t-1}+W_{ox}x_i)*tanh(C_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>t</span><span>a</span><span>n</span><span>h</span><span>(</span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>
</li>
</ul>
</li>
<li>其是怎么解决在recurrent过程中出现的梯度消失问题呢？
<ul>
<li>简单来说，在对<span><span><span><math><semantics><mrow><msub><mi>W</mi><mrow><mi>o</mi><mi>h</mi></mrow></msub><mo separator="true">,</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>x</mi></mrow></msub></mrow><annotation encoding="application/x-tex">W_{oh},W_{ox}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>计算导数的过程中，我们的<span><span><span><math><semantics><mrow><msub><mi>W</mi><mrow><mi>o</mi><mi>h</mi></mrow></msub><mo separator="true">,</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>x</mi></mrow></msub></mrow><annotation encoding="application/x-tex">W_{oh}, W_{ox}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>计算导数就会有两部分，前者是连城，后者是加分，有一个C在里面，加分从而避免了梯度消失。比如 <span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub><mo>=</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mo>(</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo><mo>∗</mo><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo><mo>=</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mo>(</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>h</mi></mrow></msub><mrow><mo>(</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mo>(</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>i</mi><mo>−</mo><mn>2</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>)</mo><mo>∗</mo><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi><mo>(</mo><msub><mi>C</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>)</mo><mo>)</mo></mrow><mo>+</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo><mo>∗</mo><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">h_i=sigmoid(W_{oh}h_{i-1} + W_{ox}x_i)*tanh(C_i) = sigmoid(W_{oh}{(sigmoid(W_{oh}h_{i-2} + W_{ox}x_{i-1})*tanh(C_{i-1}) )} + W_{ox}x_i)*tanh(C_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>t</span><span>a</span><span>n</span><span>h</span><span>(</span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>(</span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>2</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span><span>t</span><span>a</span><span>n</span><span>h</span><span>(</span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span>)</span><span>)</span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>t</span><span>a</span><span>n</span><span>h</span><span>(</span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>
</li>
<li>复杂来讲有待探索。。</li>
</ul>
</li>
</ul>
</li>
</ul>
<h3>
<a target="_blank" rel="nofollow"></a>GRU (Gated recurrent unite)</h3>
<ul>
<li>我们上面讲了LSTM是如何的结构，接下来我们看一下GRU是怎么样的结构。</li>
<li>相对于LSTM的cell，GRU相对能简单一些。
<ul>
<li>首先GRU没有cell state的概念，它将信息一直保存在hidden state中。</li>
<li>其次，最后GRU的输出也是由两部分组成，一部分是上一层hidden state保存下来的有用信息(第一部分)，一部分是这层新的hidden hidden state应该被加入的信息(两者取并集)(第二部分)。<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprM05TODNaR1kzTUdNME0ySmpNMk14TTJOaVl6azBNak16TkRCaU0yUmtOamxtTnk1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>GRU由update gate，reset gate，current content gate，output gate四部分组成。</li>
<li>update gate：决定上一个hideen state中哪些信息应该被保留，有点像LSTM中的forget gate
<ul>
<li>其结构图如下所示：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpnM05pODNaVEZoWXpneE9XUm1ZelV5WWpCbFpqUTFNbUpqTkdFek5UQTFPR0UwTkM1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>公式化：<span><span><span><math><semantics><mrow><msub><mi>z</mi><mi>t</mi></msub><mo>=</mo><msub><mi>W</mi><mrow><mi>z</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>z</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>t</mi></msub></mrow><annotation encoding="application/x-tex">z_t = W_{zh}h_{t-1} + W_{zx}x_t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.58056em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.902771em; vertical-align: -0.208331em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.04398em;">z</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.04398em;">z</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>
</li>
</ul>
</li>
<li>reset gate:决定上一个state 的哪些信息应该被重置。他与update gate不同的是，update gate主要是用在第一部分。而这里的reset gate主要用在生成第二部分。
<ul>
<li>其网络结构图如下所示：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprM05pOHpZVFZsWkRreU1UaGlaRFF5WXpOaVpEVXdNemRtWVRNNFpEUmpabU0xTUM1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>其网络结构和update gate基本一致，不共享参数，拥有相同结构。</li>
<li>数学公式表达：<span><span><span><math><semantics><mrow><msub><mi>r</mi><mi>t</mi></msub><mo>=</mo><msub><mi>W</mi><mrow><mi>r</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>r</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>t</mi></msub></mrow><annotation encoding="application/x-tex">r_t = W_{rh}h_{t-1} + W_{rx}x_t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.58056em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.02778em;">r</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.902771em; vertical-align: -0.208331em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.02778em;">r</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.02778em;">r</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>
</li>
</ul>
</li>
<li>current content gate: 主要是生成本cell的state(注意和输出的state不同，更“隐蔽“，有点像LSTM 里面的cell state)。
<ul>
<li>其结构如下所示：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpNeE9DOWtNbUk1WlRFNE9UZ3dZV1ZrWkRabFptSTJOV0UyWVdabE1qQmtNREF3Tmk1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>使用当前的输x_t, 和经过reset gate处理过的上一cell的state的组合得到本cell的state。</li>
<li>公式化如下：<span><span><span><math><semantics><mrow><msubsup><mi>h</mi><mi>t</mi><mo mathvariant="normal">′</mo></msubsup><mo>=</mo><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi><mo>(</mo><mi>W</mi><mi>x</mi><mo>+</mo><msub><mi>r</mi><mi>t</mi></msub><mo>∗</mo><msub><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">h&amp;#x27;_t = tanh(Wx + r_t * h_{t-1})</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.998892em; vertical-align: -0.247em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -2.453em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span><span>​</span></span><span><span style="height: 0.247em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>t</span><span>a</span><span>n</span><span>h</span><span>(</span><span style="margin-right: 0.13889em;">W</span><span>x</span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.61528em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.02778em;">r</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span>h</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>
</li>
</ul>
</li>
<li>output gate:输出门，将update后的上一个state和本时刻的state相结合。
<ul>
<li>其网路结构如下所示：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpjME55ODNZVFJoT1RrMlpUTm1ORGxqWXpRd1pHTTNOamd3T1dSaU5XUTRNak5rWWk1d2JtYz0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>注意，我们在这里相当于重用了<span><span><span><math><semantics><mrow><msub><mi>z</mi><mi>t</mi></msub></mrow><annotation encoding="application/x-tex">z_t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.58056em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>，使用<span><span><span><math><semantics><mrow><mn>1</mn><mo>−</mo><msub><mi>z</mi><mi>t</mi></msub></mrow><annotation encoding="application/x-tex">1-z_t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.72777em; vertical-align: -0.08333em;"></span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.58056em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>就表示要强化update后的上一个时刻没有的信息。</li>
<li>公式化表达：<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>t</mi></msub><mo>=</mo><msub><mi>z</mi><mi>t</mi></msub><mo>∗</mo><msub><mi>h</mi><mi>i</mi></msub><mo>+</mo><mo>(</mo><mn>1</mn><mo>+</mo><msub><mi>z</mi><mi>t</mi></msub><mo>)</mo><mo>∗</mo><msubsup><mi>h</mi><mi>i</mi><mo mathvariant="normal">′</mo></msubsup></mrow><annotation encoding="application/x-tex">h_t = z_t * h_i + (1+z_t) * h&amp;#x27;_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.61528em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.01056em; vertical-align: -0.258664em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -2.44134em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span><span>​</span></span><span><span style="height: 0.258664em;"><span></span></span></span></span></span></span></span></span></span></span>
</li>
</ul>
</li>
</ul>
</li>
</ul>
<h3>
<a target="_blank" rel="nofollow"></a>对比LSTM和GRU</h3>
<ul>
<li>相似点：
<ul>
<li>他们相比于传统的RNN，他们都引入了新的gate。</li>
<li>在更新memory content的时候，他们都是原有的content+新生成的content的形式。也就是说他们都会create 一个hidden的hidden new memory content，用这个content和previous content相加，得到最后的content。例如GRU：<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>t</mi></msub><mo>=</mo><msub><mi>z</mi><mi>t</mi></msub><mo>∗</mo><msub><mi>h</mi><mi>i</mi></msub><mo>+</mo><mo>(</mo><mn>1</mn><mo>+</mo><msub><mi>z</mi><mi>t</mi></msub><mo>)</mo><mo>∗</mo><msubsup><mi>h</mi><mi>i</mi><mo mathvariant="normal">′</mo></msubsup></mrow><annotation encoding="application/x-tex">h_t = z_t * h_i + (1+z_t) * h&amp;#x27;_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.61528em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.01056em; vertical-align: -0.258664em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -2.44134em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span><span>​</span></span><span><span style="height: 0.258664em;"><span></span></span></span></span></span></span></span></span></span></span>；LSTM：<span><span><span><math><semantics><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><msub><mi>C</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>∗</mo><msub><mi>f</mi><mi>i</mi></msub><mo>+</mo><msub><mi>i</mi><mi>i</mi></msub><mo>∗</mo><msub><mover accent="true"><mi>C</mi><mo>^</mo></mover><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">C_i = C_{i-1} * f_i + i_{i} * \hat{C}_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.891661em; vertical-align: -0.208331em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.10764em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.80952em; vertical-align: -0.15em;"></span><span><span>i</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.09677em; vertical-align: -0.15em;"></span><span><span><span><span><span style="height: 0.94677em;"><span style="top: -3em;"><span style="height: 3em;"></span><span><span style="margin-right: 0.07153em;">C</span></span></span><span style="top: -3.25233em;"><span style="height: 3em;"></span><span style="left: -0.16666em;">^</span></span></span></span></span></span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>
</li>
</ul>
</li>
<li>不同点：
<ul>
<li>在向下一层传递state的时候，LSTM比GRU多了一个control gate。对比起来GRU：<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>t</mi></msub><mo>=</mo><msub><mi>z</mi><mi>t</mi></msub><mo>∗</mo><msub><mi>h</mi><mi>i</mi></msub><mo>+</mo><mo>(</mo><mn>1</mn><mo>+</mo><msub><mi>z</mi><mi>t</mi></msub><mo>)</mo><mo>∗</mo><msubsup><mi>h</mi><mi>i</mi><mo mathvariant="normal">′</mo></msubsup></mrow><annotation encoding="application/x-tex">h_t = z_t * h_i + (1+z_t) * h&amp;#x27;_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.61528em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.01056em; vertical-align: -0.258664em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -2.44134em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span><span>​</span></span><span><span style="height: 0.258664em;"><span></span></span></span></span></span></span></span></span></span></span>，而LSTM：<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>i</mi></msub><mo>=</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mo>(</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>h</mi></mrow></msub><msub><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>+</mo><msub><mi>W</mi><mrow><mi>o</mi><mi>x</mi></mrow></msub><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo><mo>∗</mo><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">h_i = sigmoid(W_{oh}h_{t-1}+W_{ox}x_i)*tanh(C_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>h</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>o</span><span>x</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>x</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>t</span><span>a</span><span>n</span><span>h</span><span>(</span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>，前面的sigmoid就是多出来的control gate。体现在LSTM Cell的结构图是就如下所示：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpnMUwyWTBNVE5oTlRVMVpEa3dPV1E1TmpZNVlqTXpaR0kwTW1Vek16WmlZak0xTG5CdVp3PT0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
<li>第二点不同就是在更新state的时候，针对新生成的memory content，LSTM也比GRU多了一个control gate。用来控制哪些元素应该被用来更新。体现在公式上， GRU：<span><span><span><math><semantics><mrow><msubsup><mi>h</mi><mi>t</mi><mo mathvariant="normal">′</mo></msubsup><mo>=</mo><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi><mo>(</mo><mi>W</mi><mi>x</mi><mo>+</mo><msub><mi>r</mi><mi>t</mi></msub><mo>∗</mo><msub><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><annotation encoding="application/x-tex">h&amp;#x27;_t = tanh(Wx + r_t * h_{t-1})</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.998892em; vertical-align: -0.247em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -2.453em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span><span>​</span></span><span><span style="height: 0.247em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>t</span><span>a</span><span>n</span><span>h</span><span>(</span><span style="margin-right: 0.13889em;">W</span><span>x</span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.61528em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.02778em;">r</span><span><span><span><span style="height: 0.280556em;"><span style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span>h</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>，LSTM：<span><span><span><math><semantics><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><msub><mi>C</mi><mrow><mi>i</mi><mo>−</mo><mn>1</mn></mrow></msub><mo>∗</mo><msub><mi>f</mi><mi>i</mi></msub><mo>+</mo><msub><mi>i</mi><mi>i</mi></msub><mo>∗</mo><msub><mover accent="true"><mi>C</mi><mo>^</mo></mover><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">C_i = C_{i-1} * f_i + i_{i} * \hat{C}_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.891661em; vertical-align: -0.208331em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span><span>−</span><span>1</span></span></span></span></span><span>​</span></span><span><span style="height: 0.208331em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.10764em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 0.80952em; vertical-align: -0.15em;"></span><span><span>i</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>i</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>∗</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.09677em; vertical-align: -0.15em;"></span><span><span><span><span><span style="height: 0.94677em;"><span style="top: -3em;"><span style="height: 3em;"></span><span><span style="margin-right: 0.07153em;">C</span></span></span><span style="top: -3.25233em;"><span style="height: 3em;"></span><span style="left: -0.16666em;">^</span></span></span></span></span></span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>。体现在LSTM Cell的结构图上就如下图所示<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpJekx6RTVabUl3TURRNVlqYzJOR0pqWWpWbU9HRXpOREkxTTJRM1ltVXhaVEEzTG5CdVp3PT0=" alt="RNN、LSTM、GRU" title="RNN、LSTM、GRU">
</li>
</ul>
</li>
</ul>
<h3>
<a target="_blank" rel="nofollow"></a>参考文献</h3>
<ol>
<li><a href="https://towardsdatascience.com/learn-how-recurrent-neural-networks-work-84e975feaaf7" rel="nofollow" target="_blank">How RNN work</a></li>
<li><a href="https://colah.github.io/posts/2015-08-Understanding-LSTMs/" rel="nofollow" target="_blank">Understanding LSTM</a></li>
<li><a href="https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be" rel="nofollow" target="_blank">Understanding GRU</a></li>
<li><a href="https://arxiv.org/pdf/1412.3555v1.pdf" rel="nofollow" target="_blank">Different between GRU and LSTM</a></li>
</ol>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">来源网络，如有侵犯到您的权益请联系进行下架处理</p>')  
            }) 
</script> 
</body>
</html>