array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>RNN、LSTM、GRU学习资料记录 - 爱码网</title>
     
<meta name="keywords" content="RNN、LSTM、GRU学习资料记录" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-204043427.html" title="RNN、LSTM、GRU学习资料记录">RNN、LSTM、GRU学习资料记录</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2021-11-23">2021-11-23</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<p>RNN、LSTM：<a href="https://zhuanlan.zhihu.com/p/32085405" rel="nofollow" target="_blank">人人都能看懂的LSTM</a><br>
GRU：<a href="https://zhuanlan.zhihu.com/p/32481747" rel="nofollow" target="_blank">人人都能看懂的GRU</a><br>
其他参考：<br>
1、<a href="https://blog.csdn.net/mpk_no1/article/details/72875185" target="_blank" rel="nofollow">深度学习笔记——RNN（LSTM、GRU、双向RNN）学习总结</a><br>
2、<a href="https://blog.csdn.net/h8832077/article/details/80400462" target="_blank" rel="nofollow">[tensorflow应用之路]RNN预测时间序列原理及LSTM/GRU算法实现</a><br>
3、<a href="https://blog.csdn.net/xckkcxxck/article/details/82983360" target="_blank" rel="nofollow">pytorch LSTM用于时间序列的分析</a></p>
<h4>
<a target="_blank" rel="nofollow"></a>一、RNN</h4>
<p>RNN：循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络。</p>
<p><strong>1、单个输入<span><span><span><math><semantics><mrow><mi>x</mi></mrow><annotation encoding="application/x-tex">x</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>x</span></span></span></span></span>：</strong><br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpZeE1DODBPVFJrWWpaa1pXWXpZall4Wm1aak5tWTNNVEkxTkRsa056bGhZekpsTWk1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"><br>
公式：<span><span><span><math><semantics><mrow><mi>f</mi><mo>:</mo><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup><mo separator="true">,</mo><mi>y</mi><mo>=</mo><mi>f</mi><mo stretchy="false">(</mo><mi>h</mi><mo separator="true">,</mo><mi>x</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">f: h',y = f(h,x)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.10764em;">f</span><span style="margin-right: 0.277778em;"></span><span>:</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.946332em; vertical-align: -0.19444em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.03588em;">y</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.10764em;">f</span><span>(</span><span>h</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>x</span><span>)</span></span></span></span></span><br>
输入：<span><span><span><math><semantics><mrow><mi>x</mi></mrow><annotation encoding="application/x-tex">x</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>x</span></span></span></span></span>为当前状态下数据的输入，<span><span><span><math><semantics><mrow><mi>h</mi></mrow><annotation encoding="application/x-tex">h</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span>h</span></span></span></span></span>为接收到上一个节点的输入<br>
输出：<span><span><span><math><semantics><mrow><mi>y</mi></mrow><annotation encoding="application/x-tex">y</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.03588em;">y</span></span></span></span></span>为当前状态下本节点的输出，<span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>为传递到下一个节点的输出</p>
<p>公式1：<span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup><mo>=</mo><mi>σ</mi><mo stretchy="false">(</mo><msup><mi>W</mi><mi>h</mi></msup><mi>h</mi><mo>+</mo><msup><mi>W</mi><mi>i</mi></msup><mi>x</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">h'=\sigma(W^hh+W^ix)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.09911em; vertical-align: -0.25em;"></span><span style="margin-right: 0.03588em;">σ</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.849108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>h</span></span></span></span></span></span></span></span><span>h</span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.07466em; vertical-align: -0.25em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.824664em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span></span></span></span></span><span>x</span><span>)</span></span></span></span></span><br>
可以看出，输出<span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>，与<span><span><span><math><semantics><mrow><mi>h</mi></mrow><annotation encoding="application/x-tex">h</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span>h</span></span></span></span></span>和<span><span><span><math><semantics><mrow><mi>x</mi></mrow><annotation encoding="application/x-tex">x</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>x</span></span></span></span></span>的值都有关</p>
<p>公式2：<span><span><span><math><semantics><mrow><mi>y</mi><mo>=</mo><mi>σ</mi><mo stretchy="false">(</mo><msup><mi>W</mi><mi>o</mi></msup><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">y=\sigma(W^oh')</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.03588em;">y</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.00189em; vertical-align: -0.25em;"></span><span style="margin-right: 0.03588em;">σ</span><span>(</span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.664392em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>o</span></span></span></span></span></span></span></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span><span>)</span></span></span></span></span><br>
而<span><span><span><math><semantics><mrow><mi>y</mi></mrow><annotation encoding="application/x-tex">y</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.03588em;">y</span></span></span></span></span>则常常使用<span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>投入到一个线性层（主要是进行维度映射）然后使用softmax进行分类得到需要的数据。<br>
对这里的<span><span><span><math><semantics><mrow><mi>y</mi></mrow><annotation encoding="application/x-tex">y</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.03588em;">y</span></span></span></span></span>如何通过<span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>计算得到往往看具体模型的使用方式。</p>
<p><strong>2、序列输入<span><span><span><math><semantics><mrow><msup><mi>x</mi><mn>1</mn></msup><mo separator="true">,</mo><msup><mi>x</mi><mn>2</mn></msup><mo separator="true">,</mo><msup><mi>x</mi><mn>3</mn></msup><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi></mrow><annotation encoding="application/x-tex">x^1,x^2,x^3...</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.00855em; vertical-align: -0.19444em;"></span><span><span>x</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>x</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>x</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>3</span></span></span></span></span></span></span></span><span>.</span><span>.</span><span>.</span></span></span></span></span>:</strong><br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprek55OHdaR1F6TkdWbU56Rm1NRFkwT0RkbVpUWmtZV1ZrWVRWaVlXTTNaREppTVM1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"></p>
<h4>
<a target="_blank" rel="nofollow"></a>二、LSTM</h4>
<p>LSTM：长短期记忆（Long short-term memory, LSTM）是一种特殊的RNN，主要是为了解决<strong>长序列</strong>训练过程中的梯度消失和梯度爆炸问题。<br>
简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。</p>
<h5>
<a target="_blank" rel="nofollow"></a>2.1 LSTM的输入输出</h5>
<p>LSTM结构（图右）和普通RNN（图左）的主要输入输出区别如下所示。<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpNMU5TODFaakJqWVdNMU5XTTNZMlpqWVRrMU5UUmhNbVEwT1dZMk5qY3hZalEwTXk1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"><br>
RNN只有一个传递状态<span><span><span><math><semantics><mrow><msup><mi>h</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">h^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>，而LSTM有两个传递状态，一个<span><span><span><math><semantics><mrow><msup><mi>c</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">c^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>（cell state），和一个<span><span><span><math><semantics><mrow><msup><mi>h</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">h^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>（hidden state）。（Tips：RNN中的<span><span><span><math><semantics><mrow><msup><mi>h</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">h^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>对应于LSTM中的<span><span><span><math><semantics><mrow><msup><mi>c</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">c^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>）<br>
其中对于传递下去的<span><span><span><math><semantics><mrow><msup><mi>c</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">c^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>改变得很慢，通常输出的<span><span><span><math><semantics><mrow><msup><mi>c</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">c^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>是上一个状态传过来的<span><span><span><math><semantics><mrow><msup><mi>c</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup></mrow><annotation encoding="application/x-tex">c^{t-1}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.814108em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span></span></span></span></span>加上一些数值。<br>
而<span><span><span><math><semantics><mrow><msup><mi>h</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">h^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>则在不同节点下往往会有很大的区别。</p>
<h5>
<a target="_blank" rel="nofollow"></a>2.2 LSTM的内部结构（计算公式）</h5>
<p>1、首先使用LSTM的当前输入<span><span><span><math><semantics><mrow><msup><mi>x</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">x^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>x</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>和上一个状态传递下来的<span><span><span><math><semantics><mrow><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup></mrow><annotation encoding="application/x-tex">h^{t-1}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.814108em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span></span></span></span></span>先<strong>拼接</strong>再<strong>训练</strong>，得到以下四个状态：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpVeE9TOHlOV0ZtWmpjd05Ea3hOVGhoWW1VM00ySTNPVEV3TnpVek9EaGtaalU1Tnk1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"><br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpjMk1pODVNRFJqWVRFeU9EazNNbU15TW1VNE9XRTFNekkzTUdRNVlUVTNNbUkzWVM1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"><br>
其中，<span><span><span><math><semantics><mrow><msup><mi>z</mi><mi>i</mi></msup></mrow><annotation encoding="application/x-tex">z^i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.824664em; vertical-align: 0em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.824664em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span></span></span></span></span></span></span></span></span>， <span><span><span><math><semantics><mrow><msup><mi>z</mi><mi>f</mi></msup></mrow><annotation encoding="application/x-tex">z^f</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.849108em; vertical-align: 0em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.849108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10764em;">f</span></span></span></span></span></span></span></span></span></span></span></span>，<span><span><span><math><semantics><mrow><msup><mi>z</mi><mi>o</mi></msup></mrow><annotation encoding="application/x-tex">z^o</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.664392em; vertical-align: 0em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.664392em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>o</span></span></span></span></span></span></span></span></span></span></span></span> 是由拼接向量乘以权重矩阵之后，再通过一个 <span><span><span><math><semantics><mrow><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi></mrow><annotation encoding="application/x-tex">sigmoid</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span></span></span></span></span>**函数转换成0到1之间的数值，来作为一种门控状态。<br><span><span><span><span><math><semantics><mrow><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mo>:</mo><mi>s</mi><mo stretchy="false">(</mo><mi>x</mi><mo stretchy="false">)</mo><mo>=</mo><mn>1</mn><mi mathvariant="normal">/</mi><mo stretchy="false">(</mo><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mo stretchy="false">(</mo><mo>−</mo><mi>x</mi><mo stretchy="false">)</mo></mrow></msup><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">sigmoid:s(x)=1/(1+e^{(-x)})</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span>s</span><span>i</span><span style="margin-right: 0.03588em;">g</span><span>m</span><span>o</span><span>i</span><span>d</span><span style="margin-right: 0.277778em;"></span><span>:</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>s</span><span>(</span><span>x</span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>1</span><span>/</span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.188em; vertical-align: -0.25em;"></span><span><span>e</span><span><span><span><span style="height: 0.938em;"><span style="top: -3.113em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>−</span><span>x</span><span>)</span></span></span></span></span></span></span></span></span><span>)</span></span></span></span></span></span><br>
而<span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span>则是将结果通过一个<span><span><span><math><semantics><mrow><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi></mrow><annotation encoding="application/x-tex">tanh</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span>t</span><span>a</span><span>n</span><span>h</span></span></span></span></span>**函数将转换成-1到1之间的值（这里使用<span><span><span><math><semantics><mrow><mi>t</mi><mi>a</mi><mi>n</mi><mi>h</mi></mrow><annotation encoding="application/x-tex">tanh</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span>t</span><span>a</span><span>n</span><span>h</span></span></span></span></span>是因为这里是将其做为输入数据，而不是门控信号）。</p>
<p>2、通过以下公式计算得到<span><span><span><math><semantics><mrow><msup><mi>c</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">c^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>、<span><span><span><math><semantics><mrow><msup><mi>h</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">h^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>、<span><span><span><math><semantics><mrow><msup><mi>y</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">y^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.987996em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span><br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprM01pODNOR1k1WldSbE1tSmtPV05pWVRKaE1EZ3hORE0yTmpNNVlUVmhPV1k0TkM1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"><br><span><span><span><math><semantics><mrow><mo>⨀</mo></mrow><annotation encoding="application/x-tex">\bigodot</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.00001em; vertical-align: -0.25001em;"></span><span style="position: relative; top: -5e-06em;">⨀</span></span></span></span></span>是Hadamard Product，也就是操作矩阵中对应的元素相乘，因此要求两个相乘矩阵是同型的。<br><span><span><span><math><semantics><mrow><mo>⨁</mo></mrow><annotation encoding="application/x-tex">\bigoplus</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.00001em; vertical-align: -0.25001em;"></span><span style="position: relative; top: -5e-06em;">⨁</span></span></span></span></span>则代表进行矩阵加法。</p>
<h5>
<a target="_blank" rel="nofollow"></a>2.3 LSTM原理解释</h5>
<p>LSTM内部主要有三个阶段：<br><strong>1、忘记阶段。</strong><br>
这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是会 “忘记不重要的，记住重要的”。</p>
<p>具体来说是通过计算得到的<span><span><span><math><semantics><mrow><msup><mi>z</mi><mi>f</mi></msup></mrow><annotation encoding="application/x-tex">z^f</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.849108em; vertical-align: 0em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.849108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10764em;">f</span></span></span></span></span></span></span></span></span></span></span></span>（f表示forget）来作为忘记门控，来控制上一个状态的<span><span><span><math><semantics><mrow><msup><mi>c</mi><mrow><mo stretchy="false">(</mo><mi>t</mi><mo>−</mo><mn>1</mn><mo stretchy="false">)</mo></mrow></msup></mrow><annotation encoding="application/x-tex">c^{(t-1)}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.888em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>t</span><span>−</span><span>1</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span>哪些需要留哪些需要忘。</p>
<p><strong>2、选择记忆阶段。</strong><br>
这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入<span><span><span><math><semantics><mrow><msup><mi>x</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">x^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>x</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>进行选择记忆。哪些重要则着重记录下来，哪些不重要，则少记一些。当前的输入内容由前面计算得到的<span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span>表示。而选择的门控信号则是由<span><span><span><math><semantics><mrow><msup><mi>z</mi><mi>i</mi></msup></mrow><annotation encoding="application/x-tex">z^i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.824664em; vertical-align: 0em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.824664em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span></span></span></span></span></span></span></span></span>（i代表information）来进行控制。</p>
<blockquote>
<p>将上面两步得到的结果相加，即可得到传输给下一个状态的<span><span><span><math><semantics><mrow><msup><mi>c</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">c^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>。也就是上图中的第一个公式。</p>
</blockquote>
<p><strong>3、输出阶段。</strong><br>
这个阶段将决定哪些将会被当成当前状态的输出。主要是通过<span><span><span><math><semantics><mrow><msup><mi>z</mi><mi>o</mi></msup></mrow><annotation encoding="application/x-tex">z^o</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.664392em; vertical-align: 0em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.664392em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>o</span></span></span></span></span></span></span></span></span></span></span></span>来进行控制的。并且还对上一阶段得到的<span><span><span><math><semantics><mrow><msup><mi>c</mi><mi>o</mi></msup></mrow><annotation encoding="application/x-tex">c^o</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.664392em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.664392em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>o</span></span></span></span></span></span></span></span></span></span></span></span>进行了放缩（通过一个tanh**函数进行变化）。（上图中的第二个公式）</p>
<p>与普通RNN类似，输出<span><span><span><math><semantics><mrow><msup><mi>y</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">y^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.987996em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>往往最终也是通过<span><span><span><math><semantics><mrow><msup><mi>h</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">h^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>变化得到。（上图中的第三个公式）</p>
<h4>
<a target="_blank" rel="nofollow"></a>三、RNN和LSTM的总结、GRU的引入</h4>
<p>以上，就是LSTM的内部结构。通过门控状态来控制传输状态，记住需要长时间记忆的，忘记不重要的信息；而不像普通的RNN那样只能够“呆萌”地仅有一种记忆叠加方式。对很多需要“长期记忆”的任务来说，尤其好用。</p>
<p>但也因为引入了很多内容，导致参数变多，也使得训练难度加大了很多。因此很多时候我们往往会使用效果和LSTM相当但参数更少的GRU来构建大训练量的模型。</p>
<h4>
<a target="_blank" rel="nofollow"></a>四、GRU</h4>
<p>GRU（Gate Recurrent Unit）是RNN的一种。和LSTM一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。<br>
相比LSTM，使用GRU能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率，因此很多时候会更倾向于使用GRU。</p>
<h5>
<a target="_blank" rel="nofollow"></a>4.1 GRU的输入输出</h5>
<p>和RNN一样：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprek5TOHlNbUZqWW1ZM09URmpZbVUxTURFd01EbGlaVGt3TW1WbU0yVTNOREZrTnk1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"></p>
<h5>
<a target="_blank" rel="nofollow"></a>4.2 GRU的内部结构（计算公式）</h5>
<p>1、通过上一个传输下来的状态<span><span><span><math><semantics><mrow><msup><mi>h</mi><mrow><mo stretchy="false">(</mo><mi>t</mi><mo>−</mo><mn>1</mn><mo stretchy="false">)</mo></mrow></msup></mrow><annotation encoding="application/x-tex">h^{(t-1)}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.888em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.888em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>(</span><span>t</span><span>−</span><span>1</span><span>)</span></span></span></span></span></span></span></span></span></span></span></span></span>和当前节点的输入<span><span><span><math><semantics><mrow><msup><mi>x</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">x^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>x</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>来获取两个门控状态。<br>
如下图所示，其中<span><span><span><math><semantics><mrow><mi>r</mi></mrow><annotation encoding="application/x-tex">r</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.02778em;">r</span></span></span></span></span>控制重置的门控（reset gate），<span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span>为控制更新的门控（update gate）。<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpZNE9TODJOV05tWVRrNVkyUmlOelJsTVdSbU5tWmpOR1EyTVdaa01ESmtZemRoT1M1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"><br>
2、得到门控信号之后，首先使用重置门控来得到“重置”之后的数据 <span><span><span><math><semantics><mrow><msup><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup><mo mathvariant="normal">′</mo></msup><mo>=</mo><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup><mo>⨀</mo><mi>r</mi></mrow><annotation encoding="application/x-tex">{h^{t-1}}' = h^{t-1}\bigodot r</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.9559em; vertical-align: 0em;"></span><span><span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span></span><span><span><span><span style="height: 0.9559em;"><span style="top: -3.26701em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.06412em; vertical-align: -0.25001em;"></span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.166667em;"></span><span style="position: relative; top: -5e-06em;">⨀</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.02778em;">r</span></span></span></span></span><br>
再将<span><span><span><math><semantics><mrow><msup><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">{h^{t-1}}'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.9559em; vertical-align: 0em;"></span><span><span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span></span><span><span><span><span style="height: 0.9559em;"><span style="top: -3.26701em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>与输入<span><span><span><math><semantics><mrow><msup><mi>x</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">x^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>x</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>进行拼接，再通过一个tanh**函数来将数据放缩到-1~1的范围内。即得到如下图所示的<span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>。<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpJM0x6WTRZVFZsTUdGaU1HVTRPV1EyTXpNNVpERTJPVFZtWmpBMk16UmpZelppTG5CdVp3PT0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"><br>
这里的<span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>主要是包含了当前输入的<span><span><span><math><semantics><mrow><msup><mi>x</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">x^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>x</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>数据。有针对性地对<span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>添加到当前的隐藏状态，相当于”记忆了当前时刻的状态“。类似于LSTM的选择记忆阶段。<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpRMk9DODRNRFJpWWpZM1l6ZG1NR0ptTmpnMll6a3lZemt6WW1FNU9HUXdPV1l3TkM1d2JtYz0=" alt="RNN、LSTM、GRU学习资料记录" title="RNN、LSTM、GRU学习资料记录"><br>
3、最后介绍GRU最关键的一个步骤，我们可以称之为”更新记忆“阶段。</p>
<p>在这个阶段，我们同时进行了遗忘和记忆两个步骤。我们使用了先前得到的更新门控<span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span>（update gate）。</p>
<p>更新表达式：<span><span><span><math><semantics><mrow><msup><mi>h</mi><mi>t</mi></msup><mo>=</mo><mi>z</mi><mo>⨀</mo><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup><mo>+</mo><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><mi>z</mi><mo stretchy="false">)</mo><mo>⨀</mo><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h^t = z \bigodot h^{t-1}+(1-z) \bigodot h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.06412em; vertical-align: -0.25001em;"></span><span style="margin-right: 0.04398em;">z</span><span style="margin-right: 0.166667em;"></span><span style="position: relative; top: -5e-06em;">⨀</span><span style="margin-right: 0.166667em;"></span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span><span style="margin-right: 0.222222em;"></span><span>+</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.0019em; vertical-align: -0.25001em;"></span><span style="margin-right: 0.04398em;">z</span><span>)</span><span style="margin-right: 0.166667em;"></span><span style="position: relative; top: -5e-06em;">⨀</span><span style="margin-right: 0.166667em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span><br>
输出表达式：<span><span><span><math><semantics><mrow><msup><mi>y</mi><mi>t</mi></msup><mo>=</mo><mi>σ</mi><mo stretchy="false">(</mo><mi>W</mi><msup><mi>h</mi><mi>t</mi></msup><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">y^t=\sigma(Wh^t)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.987996em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.03588em;">y</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.04356em; vertical-align: -0.25em;"></span><span style="margin-right: 0.03588em;">σ</span><span>(</span><span style="margin-right: 0.13889em;">W</span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span><span>)</span></span></span></span></span></p>
<p>首先再次强调一下，门控信号（这里的<span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span>）的范围为0~1。门控信号越接近1，代表”记忆“下来的数据越多；而越接近0则代表”遗忘“的越多。</p>
<p>GRU很聪明的一点就在于，我们使用了同一个门控<span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span>就同时可以进行遗忘和选择记忆（LSTM则要使用多个门控）。</p>
<ul>
<li>
<span><span><span><math><semantics><mrow><mi>z</mi><mo>⨀</mo><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup></mrow><annotation encoding="application/x-tex">z \bigodot h^{t-1}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.06412em; vertical-align: -0.25001em;"></span><span style="margin-right: 0.04398em;">z</span><span style="margin-right: 0.166667em;"></span><span style="position: relative; top: -5e-06em;">⨀</span><span style="margin-right: 0.166667em;"></span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span></span></span></span></span>：表示对原本隐藏状态的选择性“遗忘”。这里的 <span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span> 可以想象成遗忘门（forget gate），忘记 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup></mrow><annotation encoding="application/x-tex">h^{t-1}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.814108em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span></span></span></span></span> 维度中一些不重要的信息。</li>
<li>
<span><span><span><math><semantics><mrow><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><mi>z</mi><mo stretchy="false">)</mo><mo>⨀</mo><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">(1-z) \bigodot h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1.0019em; vertical-align: -0.25001em;"></span><span style="margin-right: 0.04398em;">z</span><span>)</span><span style="margin-right: 0.166667em;"></span><span style="position: relative; top: -5e-06em;">⨀</span><span style="margin-right: 0.166667em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span> ： 表示对包含当前节点信息的 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span> 进行选择性”记忆“。与上面类似，这里的 <span><span><span><math><semantics><mrow><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><mi>z</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(1-z)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.04398em;">z</span><span>)</span></span></span></span></span> 同理会忘记 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span> 维度中的一些不重要的信息。或者，这里我们更应当看做是对 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span> 维度中的某些信息进行选择。</li>
</ul>
<p>结合上述，这一步的操作就是忘记传递下来的 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup></mrow><annotation encoding="application/x-tex">h^{t-1}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.814108em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span></span></span></span></span> 中的某些维度信息，并加入当前节点输入 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span> 的某些维度信息。</p>
<blockquote>
<p>可以看到，这里的遗忘 <span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span> 和选择 <span><span><span><math><semantics><mrow><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><mi>z</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(1-z)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.04398em;">z</span><span>)</span></span></span></span></span> 是联动的。也就是说，对于传递进来的维度信息，我们会进行选择性遗忘，则遗忘了多少权重 （<span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span>），我们就会使用包含当前输入的 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span> 中所对应的权重进行弥补 <span><span><span><math><semantics><mrow><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><mi>z</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(1-z)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.04398em;">z</span><span>)</span></span></span></span></span> 。以保持一种”恒定“状态。</p>
</blockquote>
<h5>
<a target="_blank" rel="nofollow"></a>4.3 LSTM与GRU的关系</h5>
<p>GRU是在2014年提出来的，而LSTM是1997年。<br><span><span><span><math><semantics><mrow><mi>r</mi></mrow><annotation encoding="application/x-tex">r</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.02778em;">r</span></span></span></span></span> (reset gate)实际上与他的名字有点不符。我们仅仅使用它来获得了 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span>。<br>
那么这里的 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mo mathvariant="normal">′</mo></msup></mrow><annotation encoding="application/x-tex">h'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.751892em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.751892em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span> 实际上可以看成对应于LSTM中的 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">h^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>（hidden state）；上一个节点传下来的 <span><span><span><math><semantics><mrow><msup><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msup></mrow><annotation encoding="application/x-tex">h^{t-1}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.814108em; vertical-align: 0em;"></span><span><span>h</span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>t</span><span>−</span><span>1</span></span></span></span></span></span></span></span></span></span></span></span></span> 则对应于LSTM中的 <span><span><span><math><semantics><mrow><msup><mi>c</mi><mi>t</mi></msup></mrow><annotation encoding="application/x-tex">c^t</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.793556em; vertical-align: 0em;"></span><span><span>c</span><span><span><span><span style="height: 0.793556em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>t</span></span></span></span></span></span></span></span></span></span></span></span>（cell state）。<br><span><span><span><math><semantics><mrow><mi>z</mi></mrow><annotation encoding="application/x-tex">z</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span style="margin-right: 0.04398em;">z</span></span></span></span></span> 对应的则是LSTM中的 <span><span><span><math><semantics><mrow><msup><mi>z</mi><mi>f</mi></msup></mrow><annotation encoding="application/x-tex">z^f</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.849108em; vertical-align: 0em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.849108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10764em;">f</span></span></span></span></span></span></span></span></span></span></span></span>（forget gate），那么 <span><span><span><math><semantics><mrow><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><mi>z</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">(1-z)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>1</span><span style="margin-right: 0.222222em;"></span><span>−</span><span style="margin-right: 0.222222em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.04398em;">z</span><span>)</span></span></span></span></span> 我们似乎就可以看成是选择门 <span><span><span><math><semantics><mrow><msup><mi>z</mi><mi>i</mi></msup></mrow><annotation encoding="application/x-tex">z^i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.824664em; vertical-align: 0em;"></span><span><span style="margin-right: 0.04398em;">z</span><span><span><span><span style="height: 0.824664em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span></span></span></span></span></span></span></span></span> 了。</p>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">来源网络，如有侵犯到您的权益请联系进行下架处理</p>')  
            }) 
</script> 
</body>
</html>