多巴胺预测误差条件反射的神经基础2

4月24日话藏心投稿

　　英国一位26岁男子用两周时间精心策划求婚仪式，希望给女友一个惊喜，他用100只蜡烛和60只气球在家里摆出MarryMe？（嫁给我？）的形状。然而，当他接女友回家后，发现整个房子已经烧得浓烟滚滚了。惊喜变成了惊吓，估计这个求婚仪式让这对情侣终身难忘。
　　我们都喜欢惊喜，讨厌惊吓，但两者有一个共同之处，都能给人留下深刻的印象。
　　多巴胺起了重要作用！
　　01多巴胺是顶级强化物
　　斯金纳的强化理论认为，食物、水、安全、温暖、生殖等是初级强化物，它们能满足人或动物的基本生理需求，天生就能引发有机体的反应，即非条件反射。
　　在前文《多巴胺：条件反射的神经基础【1】》中谈到，初级强化物会使多巴胺能神经元激发出动作电位。但是，如果缺乏多巴胺，动作电位无法传递给神经元的下一级，无法建立条件反射。反之，如果人为在神经元上激发出动作电位，即使没有强化物，也能建立起条件反射。
　　大量的动物实验证明了这个结论。因此，我们把多巴胺能神经元产生的动作电位峰值（以下简称多巴胺峰值）称为顶级强化物，它是建立条件反射的先决条件。
　　那么，强化物以什么方式导致多巴胺的释放呢？
　　02多巴胺是预测误差
　　德国神经科学家舒尔茨发现了条件反射在建立的过程中，多巴胺峰值的变化情况，如图1所示〔1〕：
　　图1：条件反射建立过程中多巴胺峰值的变化情况。图片来源：Schultz，1998
　　从图1右侧红框中的动作电位峰值可以看到，从上到下，多巴胺峰值逐渐变小，最后完全消失。
　　我们发现这样的规律：当奖励R第一次出现时，多巴胺峰值最大（A图），但奖励R再次出现时，峰值就会缩小（B图），R出现多次以后，峰值会完全消失（C图）。
　　舒尔茨对此的解释是，导致产生多巴胺峰值的不是奖励R这个刺激本身，而是奖励出现的意外程度。只有预期之外的奖励才会引起多巴胺释放，意料之中的奖励就不再释放了。他认为，新奇（Novelty）才是激活多巴胺能神经元的关键因素。
　　除了奖励刺激以外，厌恶刺激也能能激活多巴胺能神经元，但在大脑中激活的路径不同。本文开头故事中说到的惊喜和惊吓，分别是意外的奖励和意外的惩罚，除此之外，惊奇、惊异、惊险、惊恐、震惊等等这些意料之外的状况，都会激发多巴胺的释放。
　　这些都是顶级强化物，多巴胺是启动联结学习的信号。
　　然而，新奇注定不会长久，多巴胺也不会一直释放。生活中常有这样的感受，无论任何新奇或满怀期待的东西，第一次得到时，总是让我们感到兴奋和惊喜，而再次得到时，兴奋程度就会降低，最后慢慢习惯了，就变得无感了。
　　这都是多巴胺搞的鬼。
　　德国经济学家戈森曾提出一个享乐法则：同一享乐不断重复，其带来的享受逐渐递减。由此演变出经济学中著名的边际效用递减规律。
　　恋人第一次牵手，感觉会非常美妙，浑身发热、心跳加速、开心、幸福。而成为老夫老妻后，就像《一声叹息》中的台词所说：晚上睡觉，我摸着你的手，就像摸我自己的手一样，没有感觉。这也是由于多巴胺释放减少，而导致边际效用递减吧？
　　台词后半句说：可是要把你的手锯掉，也跟锯我的手一样疼。多巴胺虽然不释放了，但爱人之间已经建立起深刻的联结，对方的一切，都能让自己感同身受，以至条件反射。
　　激情虽已不在，亲情历久弥坚。
　　我们再看图1左侧的绿框，当中性刺激CS与奖励R第一次配对出现时，绿框中没有多巴胺峰值（图1。A图），表示两者没有联结。当它们再次配对出现时，绿框中的多巴胺峰值逐渐增加（图1。B图），若干次以后，峰值达到最大（图1。C图）。
　　这表明，原本中性的刺激CS，逐渐与奖励R建立起联结，完成了联结学习。
　　根据以上现象，舒尔茨在1997年提出一个假说：多巴胺峰值表达的是奖励预测误差（RPE，Rewardpredictionerror）〔2〕。
　　他认为，多巴胺能神经元会对未来的奖励做出预测，当得到实际的奖励后，它们会比较两者的差异。高于预期的奖励会触发释放多巴胺，而低于预期的奖励会抑制多巴胺释放。换句话说，多巴胺峰值充当了一种校正信号，告诉神经元调整其预测，使之更接近现实。
　　在刺激CS处激发的多巴胺峰值（图1中绿框中的峰值）代表对未来奖励的预测值，而在奖励R处激发的多巴胺峰值（图1红框中的峰值）代表预测结果的实际误差值。
　　例如，在图1（A）中，奖励R是第一次出现，此时CS处的绿框中并没有多巴胺峰值，意味着当CS出现时，神经元的预测是没有奖励。但是，奖励R却出现了，表明之前的预测完全错了。于是多巴胺大量释放，红框中的峰值最高，峰值大小等于预测误差值。
　　图1（B），已经开始联结学习。当CS再次出现时，绿框中的较小峰值表示对奖励R产生了一定的预期，但期望不大。当奖励R出现后，依然超出了预期的概率，多巴胺会释放。但红框中的峰值已减小，表示预测误差已经减小了。
　　图1（C），学习完毕，联结完成。当CS出现时，绿框中的峰值达到最高，可以100预期奖励的出现。奖励R实际出现后，红框中的多巴胺没有峰值。表示预测完全正确，没有任何预测误差。
　　但是，如果此时奖励R不出现，多巴胺峰值又该如何表达预测结果呢？如图2所示：
　　图2：撤除奖励R后，多巴胺峰值变化情况。图片来源：Schultz，1998
　　图2中，当条件刺激CS出现时，该处的多巴胺峰值最高，表示预测将会出现奖励R。但是，奖励R却没有出现，此时，在红圈中的多巴胺峰值出现一个坑，表示预测出错了，那个坑表示预测误差是负值。
　　用公式表达预测误差会非常清晰，我们用V代表预测误差，公式如下：
　　VRV
　　其中：V为预测误差（）；
　　R为奖励实际出现的概率（）；
　　V为预测会出现奖励的概率（）。
　　计算结果如下表所示：次数
　　n预期
　　V奖励
　　R预测误差
　　VRV
　　0hr0hr100hr100hr1hr40hr100hr60hr2hr80hr100hr20hr3hr100hr100hr0hr4hr100hr0hr100
　　这个公式加上学习系数，就是雷斯科拉瓦格纳（RescorlaWagner）模型，即：
　　V（n1）（Vn）
　　V（n1）VnV（n1）
　　公式中的等于奖励R。
　　V（n1）为奖励R处的多巴胺峰值大小（上表中红色部分）：
　　V（n1）为刺激CS处的多巴胺峰值大小（上表中绿色部分）。
　　和为学习系数。
　　后续的研究表明，多巴胺能神经元除了会对奖励做出预测，也会对惩罚做出预测。所以，多巴胺峰值表达的是预测误差。
　　03奖励预测误差决定幸福快乐
　　大脑释放的多巴胺（以及随之释放的血清素、内啡肽等）是我们感受到幸福和快乐的基础。但是，多巴胺并不是依据实际得到的奖励释放的，而是根据奖励预测误差释放的。这个相对机制给我们追求幸福的过程制造出很多问题。
　　以金钱为例，拥有的钱多就能幸福快乐吗？
　　不管我们挣到多少钱，是成千上万还是百亿千亿，一旦得到了，在短暂的兴奋和快乐过后，那些钱就成为属于我们的财富了。而当神经元预测未来的奖励时，已经拥有的财富会成为计算奖励预测误差的基线。基线之上的收益才算是奖励，跌回基线以下只能算惩罚。
　　所以，感受到的幸福和快乐，与拥有的金钱财富的绝对数量是不成正比的，它们只与财富的增量成正比。这也是为什么福布斯排行榜单上富豪们看起来永不知足的原因，早就拥有几辈子花不完的钱，却还在苦苦奋斗赚取更多钱财。因为财富一旦没有增量，就没有多巴胺释放了，也很难感受到幸福快乐了。如果增量是负值，即使拥有亿万财富，感受到的却是失落和痛苦。
　　缺乏多巴胺的富豪一样会抑郁。
　　就像恒大集团的老板许家印，从一穷二白的穷小子起步，一路摸爬滚打，事业越做越大，成为中国首富。他幸福快乐吗？应该说，这一路走来，他是幸福快乐的，因为财富一直在增长，多巴胺不停在释放。可到后面他就快乐不起来了，因为作为恒大集团的主业，房地产业已经不能继续增长下去了。所以，许家印义无反顾地投入巨资，进入新能源汽车行业，打算换个赛道继续增长。不幸的是，债务爆雷、新车迟迟不能下线，让公司陷入窘境。希望他能绝地翻身，再创辉煌。
　　那么，怎样才能长久保持幸福快乐呢？
　　一种方式是每天进步一点点，让自己得到的奖励小幅持续增长，每天都有多巴胺释放，每天都会快乐。不要追求大幅增长，因为那样会很快把基线抬高，增加日后增长的难度。
　　也有朋友说，把盘子做大，资源会更多，做事会更容易。这样说也有道理，取决于各人利用资源的能力，总的原则是不造成大起大落就好。
　　另一种方式是降低自己的预期，无论得到什么，都是意外之喜，就会得到多巴胺的释放，同样可以实实在在地感受到幸福快乐。这并不是某些人说的自欺欺人，虽然从身外的物质层面看，好像是没得到什么，或得到的不多，但从内在神经元的层面看，获得的多巴胺是真实的。
　　04奖励预测误差（RPE）假说的实验证明
　　分别在2013年和2016年报告的两项实验，证明了奖励预测误差假说的正确性。
　　这两项实验都用到了光遗传技术，通过在神经元细胞膜上植入光敏蛋白，用某种颜色的激光照射，即能精确地在神经元上激发出动作电位。
　　也可以在神经元细胞膜上植入另一种光敏蛋白，用另一种颜色的激光照射，即可以把神经元上已经激发的动作电位抑制掉，回到不活动状态。
　　之前我们多次用到多巴胺能神经元动作电位的峰值，该峰值并不是在一个神经元上产生的，而是由多个神经元中的动作电位叠加而成的。如图3所示：
　　图3：多个多巴胺能神经元的动作电位叠加出多巴胺峰值示意图，图片来源：Schultz，1998
　　图3中下半部分的每一个黑点，代表一个被激发出动作电位的多巴胺能神经元，黑点密集的区域（红框内区域），表示有较多的神经元被激活，叠加出来的多巴胺峰值就较高；黑点稀疏的区域，激活的神经元较少，叠加出来的多巴胺峰值就低（图中基线区域）；如果没有黑点（蓝框内区域），表明没有神经元被激活，多巴胺峰值就出现一个坑。
　　如果在神经元细胞膜上植入光敏蛋白，用激光照射后，原来不活动的神经元会被激发出动作电位，这样人为增加了图中黑点的密度，于是叠加出来的多巴胺峰值就更高了，这就是光遗传技术的基本原理。如图4所示：
　　图4：用光遗传技术激活神经元增加多巴胺峰值示意图，图片来源：拼接P图，仅供参考
　　（1）第一个实验：人工激发一个虚拟的预测误差，验证能否建立条件反射〔3〕。
　　第一步：建立标准的条件反射。
　　A是一种声音刺激，R是一份食物奖励，两者配对出现，启动联结学习，如图5所示：
　　图5：声音刺激A与奖励R建立条件反射的过程；图片来源：自制
　　图5。A：声音刺激A与奖励R配对出现，由于A与R之间没有联结，故不能预测R。所以R的出现是个意外，于是激发出较大多巴胺峰值。
　　图5。B：联结学习进行中，A处的较小的多巴胺峰值代表预测奖励出现的概率较小，R处的多巴胺峰值代表实际的预测误差。
　　图5。C，联结学习完成，给出声音刺激A，即能激发出100的多巴胺峰值，而R处的多巴胺峰值为0，说明预测准确，没有误差。
　　第二步：声光组合刺激学习。
　　A是声音刺激，X是灯光刺激，R是一份食物奖励。
　　AX同时出现与奖励R配对进行联结学习，如图6所示：
　　图6：阻塞条件反射示意图；图片来源：自制
　　图6。A：声音刺激A与灯光刺激X的组合与奖励R配对出现，由于A可以100预测奖励R的出现，预测误差为0，所以在R处不会激发出多巴胺峰值。
　　图6。B：没有预测误差就不会启动联结学习过程，图形不变。
　　图6。C：对灯光刺激X进行单独测试，发现多巴胺能神经元对X没有反应，没有峰值。说明X没能与R建立起联结。
　　已经建立联结的刺激会阻碍另一种刺激建立联结，这种现象称为阻塞（blocking）条件反射。
　　第三步：同样是AX声光刺激组合实验，但这次给一份食物奖励和一份激光照射模拟的多巴胺动作电位峰值，虽然物理上只有一份奖励R，但神经系统认为得到两份奖励（RR）。如图7所示：
　　图7：光遗传技术去阻塞示意图；图片来源：自制
　　图7。A：对于AX声光组合刺激，给出一份真实奖励R和一份激光照射模拟的多巴胺峰值，神经系统认为给出了两份奖励（2R）。由于声音刺激A能预测一份食物奖励R，灯光刺激X没建立联结，预测奖励为0。这样重新产生了预测误差。误差值为2RRR。所以在R处的多巴胺峰值重新出现，启动了联结学习。
　　图7。B：学习完成后，声音刺激A与灯光刺激X组合可以预测两份食物奖励（RR），预测误差又重新归0，多巴胺峰值消失。
　　图7。C：用X单独测试，发现X可以激发出多巴胺峰值，说明X学会了与奖励R的联结。
　　这种被阻塞的刺激又恢复联结学习的现象称为去阻塞（Unblocking）条件反射
　　（2）第二个实验：人工抑制一个已存在的预测误差，验证能否使条件反射消退〔4〕。
　　第一步：声音刺激A与灯光刺激V分别与一份食物奖励R配对学习，建立条件反射，如如8所示：
　　图8：声音刺激A与灯光刺激V分别与奖励R建立条件反射示意图；图片来源：自制
　　第二步：声光刺激AV组合同时出现，与两份食物奖励RR配对，然后通过激光照射抑制掉后一份奖励R对应的动作电位。此时，虽然物理上给出了两份奖励（2R），但神经系统认为只得到一份奖励R，如图9所示：
　　图9：光遗传技术引发过度期待示意图；图片来源：自制
　　图9。A：声音刺激A和灯光刺激V各自预测一份食物奖励R，所以合计预测两份奖励（2R），实际给出两份奖励（2R），预测误差（2R2R）0，没有预测误差，没有多巴胺峰值，不会启动联结学习。
　　图9。B：在给出两份食物奖励（RR）的同时，用激光照射抑制掉被后一份奖励R激活的神经元动作电位，使神经系统认为只得到一份奖励R。于是预测误差重新出现，其值为：R2RR。误差是负值，代表多巴胺峰值在0轴以下，即多巴胺峰值的坑。负的预测误差会启动联结的消退学习。
　　这种情况称为过度期望（overexpectation）条件反射，即预测得到的奖励大于实际得到的奖励，期望过高了。
　　图9。C：消退学习完成后，AV的刺激组合可以正确预测一份食物奖励R，预测误差回到0。这意味着每个刺激只能预测0。5份的奖励R了。
　　第三步：单独对光刺激V进行测试，发现确实只能激发0。5份的多巴胺峰值。如图10所示：
　　图10：单独用灯光刺激V进行测试，只激发出0。5份的多巴胺峰值。图片来源：自制
　　这两个实验通过人为操纵多巴胺能神经元动作电位，欺骗神经系统。在第一个实验中，实际只给出一份奖励R，但是却用激活动作电位的方式表达收到两份，神经系统相信了，并启动相应的联结学习，建立起新的条件反射。结果符合奖励预测误差的假说。
　　第二个实验则反过来，实际给出两份奖励2R，却人为抑制动作电位，表达只收到一份奖励R。神经系统也相信了，并启动相应的联结消退学习，结果符合奖励预测误差的假说。
　　两个实验从正反两方面证明，多巴胺能神经元动作电位的峰值，表达的是对奖励的预测误差，不但能正确定性预测有无奖励，还能精确定量预测奖励多少。如果预测结果出现误差，系统会启动学习机制自我纠正。实验证明奖励预测误差的假说是完全正确的。
　　完
　　参考：
　　〔1〕SchultzW。Predictiverewardsignalofdopamineneurons。JNeurophysiol。1998J80（1）：127。
　　〔2〕Schultz，W。，Dayan，P。，Montague，P。R。（1997）。Aneuralsubstrateofpredictionandreward。Science，275（5306），15931599。
　　〔3〕Steinberg，E。E。，Keiflin，R。，Boivin，J。R。，Witten，I。B。，Deisseroth，K。，Janak，P。H。（2013）。Acausallinkbetweenpredictionerrors，dopamineneuronsandlearning。Natureneuroscience，16（7），966973。
　　〔4〕ChangCY，EsberGR，MarreroGarciaY，YauHJ，BonciA，SchoenbaumG。Briefoptogeneticinhibitionofdopamineneuronsmimicsendogenousnegativerewardpredictionerrors。NatNeurosci。2016J19（1）：1116

投诉评论转载

河南最贵的白酒是什么？河南的酒，我喝过沁河玉液，杜康，赊店老酒，宋河，彩陶坊。其中赊店最贵，500左右买了两个200ml的，非常香，没开封隔很远闻到酒味，二两的酒，一点都不冲，都不敢放开喝，怕……你会以恒大为傲吗？我是恒大员工，但不是水军，我始终会以恒大为傲！对外接触，恒大这个名字就是一张最好的名片，虽然公司现在有困难，但我坚信恒大会挺过去，我愿与它共渡难关，这也是一个员工应有的忠诚！！……樊振东王楚钦失利告败，无缘决赛，最主要的原因是什么？还是双方配合出现了些问题，这都不是问题的关键，一枝独秀不是春，百花齐放才能春满园，世界乒坛需要这样的发展格局。男单、女单现在的局势就很好，混双都实行了跨国组合参加比赛，就是丢失……为什么卤猪头肉那么好吃？的确卤猪头肉很好吃，尤其是是味蕾非常发达的年轻人更好这一口！主要有三个原因：1猪头肉具有很好的口感！大家都知道猪肉的肥肉比较肥腻，精瘦肉又比较柴，但是猪头肉能够中和二者优……有没有人跟我一样负债累累，工作又没有，天天在家躺尸的？我现在就是负债累累，没有工作，但是我没空躺尸，每天在家照顾老人就把我累得够呛。老人还没发病之前，我就破产了。我这个破产说起来有点冤，我自认为纯属命运不济，运气太差。本来自……腭裂语言训练技巧分享，解决2个难题是重点腭裂语言训练是特殊儿童康复的难题之一，唇腭裂宝宝的康复主要分两个部分，第一，上腭、唇部裂隙的结构修复。第二，腭裂语言训练。关于腭裂宝宝的康复问题，有哪些实用的康复技巧呢？……宝宝湿疹可以换奶粉吗食物过敏是一种没有特殊药物治疗的疾病，目前的治疗方法就是要忌口，避免食用过敏食物。由于牛奶、鸡蛋等过敏性食物可以通过母乳传递，因此，吃母乳的婴儿，母亲不要进食导致婴儿过敏的食物……试论如何加强上级综合运用四种形态摘要：准确把握和运用好四种形态，首要的是按照四种形态的新思想新要求转变观念、更新理念，精准调校、无缝对接，坚决破除依法代纪的思维定势、抓大抓要的习惯做法、与人为善的庸俗思想、单……我国的反腐已经做的很好了，不要再质疑反腐力度，理由有三点近日两会已经开完了，在开两会期间许多的人提出了很多的建议，有的提出的建议让人很赞同，老百姓纷纷拍手称快，大加赞赏，有点提出的建议却被人们吐槽，说这些人提出的建议简直就是浪费一个……如何清洗羽绒睡袋考虑到现在布料印染中的不安全因素，建议大家尽量选择白色或浅的单色内衬的睡袋。尽可能的避免一些不必要的污染，那使用睡袋时该注意什么呢？配备一条质量较好的防潮垫，这一点非常重要，常……河北最南的点在哪里？大家都知道河北最南端在邯郸，但你知道邯郸最南端在哪里吗？邯郸最南端的县是魏县。这里南边跟河南省的安阳县、内黄县、清丰县、南乐县接连，有一百多万人口，也算是平原上的一个人口……多巴胺预测误差条件反射的神经基础2英国一位26岁男子用两周时间精心策划求婚仪式，希望给女友一个惊喜，他用100只蜡烛和60只气球在家里摆出MarryMe？（嫁给我？）的形状。然而，当他接女友回家后，发现整个房子……

<<<<<<－>>>>>>

秋天早上问候动态精美图片，真诚，致生命中不离不弃的朋友们社会生活让我们明白脚后跟痛发热是不是痛风小孩子眼病的征象有哪些呢为什么门店小了反而生意好了纪实外蒙务工的日子里实现羊肉自由（烤全羊）触摸五千年中华文明哪些方式是你最爱？竞选黑板报负责人演讲稿爆囧淡定不了也不住呀隐形眼镜的规格标准范进中举缩写产后吃阿胶的好处和坏处

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找