Solving the Distal Reward Problem through Linkage of STDP and Dopamine Signaling

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

BMC Neuroscience, no. Suppl 2 (2007): 15-2

Abstract

　　在巴甫洛夫式和工具性条件下，奖励通常是在奖励触发动作几秒钟后产生的，从而产生了一个被称为"远端奖励问题"的解释难题：如果 1）奖励到达时不再存在这些模式，并且 2）在等待奖励的所有神经元和突触都处于活跃状态，大脑如何知道大脑中哪些神经元负责奖励？在此，我们展示了如何通过具有由多巴胺(DA)调节的脉冲时间依赖可塑性(STDP)的皮质脉冲神经元模型网络来解决难题。尽管STDP是在毫秒的时间尺度上由几乎重合的发放模式触发的，但随后的突触可塑性的缓慢动态在几秒钟的关键时间内对细胞外DA浓度的变化敏感。在等待期间随机获得奖励不会影响STDP，因此不会使网络对正在进行的活动不敏感——这项关键功能将我们的方法与以前的理论研究区分开来，后者隐含地假设网络在等待期间是安静的，或者这些模式将保留下来，直到获得奖励为止。这项研究强调了精确发放模式在大脑动态中的重要性，并提出了以细胞外DA形式出现的整体扩散性强化信号如何在正确的时间选择性地影响正确的突触。

Keywords: classical conditioning, dopamine, instrumental conditioning, reward, simulation, spike-timing-dependent plasticity (STDP)

Introduction

Materials and Methods

Results

Reinforcing a Synapse

Classical (Pavlovian) Conditioning

Stimulus-Response Instrumental Conditioning

Shift of DA Response from US to Reward-Predicting CS in Classical Conditioning

Discussion

　　我们使用带有DA调节STDP的脉冲网络展示了巴甫洛夫和工具式调节的生物学合理实现以及TD强化学习的某些方面。基于DA调节经典LTP和LTD的实验证据，我们假设DA具有允许STDP发生的许可且启用效应——这是一个以前从未提出过的可测试假设。尽管STDP以毫秒为单位起作用，但突触可塑性的缓慢生化动态可能使其对延迟数秒的DA奖励敏感。我们将脉冲网络解释为代表前额叶皮层的一小部分，从中脑接收大量多巴胺能投射并投射到中脑(Seamans and Yang, 2004)，尽管该理论也可以应用于新纹状体和基底神经节。我们的模拟表明了一种神经合理的机制，即如何学习线索、动作和延迟奖励之间的关联(图1-3)，以及DA响应如何从US转变为奖励预测CS(图4)。

Spiking Implementation of Reinforcement Learning

　　Seung (2003)、Hasselmo (2005)以及Koene和Hasselmo (2005)已经提出了强化学习的脉冲实现，并且还有更多基于突触资格迹的模型(参见例如Houk, Davis, Beiser 1995)。所有这些模型都有一个共同的缺点：它们要求网络在等待奖励期间相对安静。事实上，等待期间的随机神经元活动会触发所有突触中的突触传递，改变资格迹，并阻碍学习。相比之下，STDP在等待期间对随机发放不敏感，但只对精确发放模式敏感。由于精确模式集在所有可能的发放模式空间中都是稀疏的，因此DA调节的STDP利用了这一事实，并提供了一种优越的强化学习机制。

　　Rao和Sejnowski (2001)明确考虑了STDP和TD之间的关系，但他们提出了相反的问题：如何从TD获得STDP作用于毫秒时间尺度以及由此产生的STDP如何取决于树突位置？

Synaptic Eligibility Traces

　　由变量c (见公式1)建模的突触可塑性的缓慢动态导致突触资格迹的存在(Houk, Adams, Barto 1995)。这是经典机器学习算法中的一个古老思想，其中资格迹被分配给线索和动作，如TD(λ)学习规则(Houk, Davis, Beiser 1995; Sutton and Barto 1998; Worgotter and Porr 2005)。为了使机器学习算法起作用，网络需要提前知道所有可能的线索和动作的集合。相比之下，有大量可能的脉冲时序模式可以触发STDP，并且可以代表脉冲网络的未指定线索和动作(Izhikevich 2006)。它们中的任何一个都可以与环境或实验者的奖励相关联，并且网络可以使用比TD(k)或其他机器学习算法更具有生物学合理性的方式自行找出哪一个。

Spiking Implementation of TD

　　我们的模型展示了TD强化学习某些方面的可能脉冲网络实现：DA响应从US到奖励预测CS的转变。我们强调这个属性不是内置在模型中的，但是当我们允许突触到VTA投射神经元上的突触像网络中的任何其他突触一样受到DA的影响时，它就会自发地出现。因此，转变是应用于突触电路的DA调节STDP的一般属性，投射到VTA。这种转变的机制非常出人意料：它利用了STDP对CS呈现期间US、CS和VTA投射神经元发放的精细时间结构的敏感性，如图4e所示。

　　请注意，图4中的DA响应不是TD算法所需的真正错误预测信号，因为当省略US时，该模型未能表现出VTAp组活动中的发放率(下降)降低(Montague et al., 1996; Schultz 1998)。一方面，由于CS和US之间的间隔是随机的，因此预期不会出现萧条。然而，即使间隔是固定的，也不会发生萧条，因为没有内部时钟或预期信号告诉网络何时会出现US。为了抑制发放率，可以模拟尾状核和苍白球产生的US预期信号(Watanabe 1996; Suri and Schultz 2001; Lauwereyns et al. 2002)，并在US预期的那一刻刺激抑制性神经元到达(建模尾状核和苍白球不在本文的范围内)。另请注意，图4中的DA响应并未表现出延迟的逐渐变化，正如TD模型所预测的那样，而是从US跳跃到奖励预测CS，这与在体内实验中观察到的效果更一致(Pan et al. 2005)。与这些记录一致，图4中对US的DA响应并未完全减弱，但仍高于基准水平。最后，训练后意外出现的US会导致模型中DA反应减弱，因为US→VTA_p的突触连接被抑制，也就是说，关联是未学习的，与体内记录显示强烈反应相反(Schultz 1998, 2002)。因此，DA调节STDP足以在脉冲活动和突触可塑性的生物学相关项中重现TD强化学习的某些方面，但不是所有方面。为了解决所有方面，需要改进网络架构并引入类似于基底神经节的解剖回路。

Spiking versus Mean Firing Rate Models

　　我们的研究强调了大脑动态中精确发放模式的重要性：本文提出的机制仅在奖励预测刺激与精确发放模式相对应时才起作用。我们只考虑了嵌入噪声海的同步模式，但同样的机制对于多时触发模式同样有效，即时间锁定但不同步(Izhikevich 2006)。有趣的是，基于发放率的学习机制无法强化这些模式。事实上，提示的呈现，例如图2中的S1，不会增加任何神经元的发放率；它只是添加、删除或更改S1中50个神经元中每个神经元的单个脉冲时间。特别是，神经元继续以每秒1-2个脉冲的频率发放类似泊松分布的脉冲序列。有关刺激的信息仅包含在脉冲的相对时间中，脉冲在图2中被视为垂直条纹，可有效触发STDP。同一网络的平均发放率描述将导致神经元活动具有恒定值，对应于恒定发放率，不可能知道刺激何时发生。

　　相反，DA调节的STDP将无法加强发放率模式。事实上，大的发放率波动会产生多个具有随机pre-post顺序的重合脉冲，因此由LTD主导的STDP将导致突触强度的平均下降(Kempter et al. 1999a, 1999b; Song et al. 2000)。因此，即使巧合并不罕见，STDP仍然可以将由于基于发放率的动态引起的偶然巧合与由于脉冲时间动态引起的因果关系分离(Wulfram Gerstner 向作者强调了这一点)。这就是DA调节STDP与基于发放率的学习规则的不同之处，这就是为什么选择性地强化精确发放模式但对发放率模式不敏感的原因如此有效。

Reward versus Punishments

　　人们不仅可以使用我们的方法对奖励进行建模，还可以对惩罚进行建模。事实上，我们可以将变量d视为高于某个基准水平的细胞外DA浓度。在这种情况下，d的负值被解释为低于基准的浓度，导致主动忘记发放模式，即惩罚。另一种实现惩罚的方法是假设DA仅控制STDP的LTP部分。在这种情况下，DA信号的缺失导致突触连接的整体抑制(惩罚)，DA的某些中间值导致STDP的LTD和LTP部分之间的平衡(基准)，而强DA信号导致符合条件的增强突触连接(奖励)。有轶事证据表明STDP曲线在前额叶和运动皮质中具有非常小的LTP部分(Desai NS，个人交流)。该模型做出了一个可测试的预测，即如果在突触可塑性诱导期间或之后立即存在DA，则STDP曲线看起来会大不相同。

Conclusion

　　STDP的DA调节为远端奖励/信度分配问题提供了一个优雅的解决方案：只有几乎重合的脉冲模式被奖励强化，而奖励延迟期间不相关的脉冲不影响资格迹(变量c)，因此会被网络忽略。与之前的理论研究相比，1) 网络在等待奖励期间不必保持安静，2) 不必通过神经元的重复活动保留奖励触发模式。如果所有可能模式中的一个脉冲模式始终如一地先于或触发奖励(甚至几秒钟后)，则负责生成该模式的突触有资格在奖励到达时进行修改，并且该模式得到持续强化(已分配信度)。即使网络不知道归于哪个模式，但将来在相同的行为上下文中更有可能生成相同的模式。