英国一位26岁男子用两周时间精心策划求婚仪式,希望给女友一个惊喜,他用100只蜡烛和60只气球在家里摆出MarryMe?(嫁给我?)的形状。然而,当他接女友回家后,发现整个房子已经烧得浓烟滚滚了。惊喜变成了惊吓,估计这个求婚仪式让这对情侣终身难忘。 我们都喜欢惊喜,讨厌惊吓,但两者有一个共同之处,都能给人留下深刻的印象。 多巴胺起了重要作用! 01多巴胺是顶级强化物 斯金纳的强化理论认为,食物、水、安全、温暖、生殖等是初级强化物,它们能满足人或动物的基本生理需求,天生就能引发有机体的反应,即非条件反射。 在前文《多巴胺:条件反射的神经基础【1】》中谈到,初级强化物会使多巴胺能神经元激发出动作电位。但是,如果缺乏多巴胺,动作电位无法传递给神经元的下一级,无法建立条件反射。反之,如果人为在神经元上激发出动作电位,即使没有强化物,也能建立起条件反射。 大量的动物实验证明了这个结论。因此,我们把多巴胺能神经元产生的动作电位峰值(以下简称多巴胺峰值)称为顶级强化物,它是建立条件反射的先决条件。 那么,强化物以什么方式导致多巴胺的释放呢? 02多巴胺是预测误差 德国神经科学家舒尔茨发现了条件反射在建立的过程中,多巴胺峰值的变化情况,如图1所示〔1〕: 图1:条件反射建立过程中多巴胺峰值的变化情况。图片来源:Schultz,1998 从图1右侧红框中的动作电位峰值可以看到,从上到下,多巴胺峰值逐渐变小,最后完全消失。 我们发现这样的规律:当奖励R第一次出现时,多巴胺峰值最大(A图),但奖励R再次出现时,峰值就会缩小(B图),R出现多次以后,峰值会完全消失(C图)。 舒尔茨对此的解释是,导致产生多巴胺峰值的不是奖励R这个刺激本身,而是奖励出现的意外程度。只有预期之外的奖励才会引起多巴胺释放,意料之中的奖励就不再释放了。他认为,新奇(Novelty)才是激活多巴胺能神经元的关键因素。 除了奖励刺激以外,厌恶刺激也能能激活多巴胺能神经元,但在大脑中激活的路径不同。本文开头故事中说到的惊喜和惊吓,分别是意外的奖励和意外的惩罚,除此之外,惊奇、惊异、惊险、惊恐、震惊等等这些意料之外的状况,都会激发多巴胺的释放。 这些都是顶级强化物,多巴胺是启动联结学习的信号。 然而,新奇注定不会长久,多巴胺也不会一直释放。生活中常有这样的感受,无论任何新奇或满怀期待的东西,第一次得到时,总是让我们感到兴奋和惊喜,而再次得到时,兴奋程度就会降低,最后慢慢习惯了,就变得无感了。 这都是多巴胺搞的鬼。 德国经济学家戈森曾提出一个享乐法则:同一享乐不断重复,其带来的享受逐渐递减。由此演变出经济学中著名的边际效用递减规律。 恋人第一次牵手,感觉会非常美妙,浑身发热、心跳加速、开心、幸福。而成为老夫老妻后,就像《一声叹息》中的台词所说:晚上睡觉,我摸着你的手,就像摸我自己的手一样,没有感觉。这也是由于多巴胺释放减少,而导致边际效用递减吧? 台词后半句说:可是要把你的手锯掉,也跟锯我的手一样疼。多巴胺虽然不释放了,但爱人之间已经建立起深刻的联结,对方的一切,都能让自己感同身受,以至条件反射。 激情虽已不在,亲情历久弥坚。 我们再看图1左侧的绿框,当中性刺激CS与奖励R第一次配对出现时,绿框中没有多巴胺峰值(图1。A图),表示两者没有联结。当它们再次配对出现时,绿框中的多巴胺峰值逐渐增加(图1。B图),若干次以后,峰值达到最大(图1。C图)。 这表明,原本中性的刺激CS,逐渐与奖励R建立起联结,完成了联结学习。 根据以上现象,舒尔茨在1997年提出一个假说:多巴胺峰值表达的是奖励预测误差(RPE,Rewardpredictionerror)〔2〕。 他认为,多巴胺能神经元会对未来的奖励做出预测,当得到实际的奖励后,它们会比较两者的差异。高于预期的奖励会触发释放多巴胺,而低于预期的奖励会抑制多巴胺释放。换句话说,多巴胺峰值充当了一种校正信号,告诉神经元调整其预测,使之更接近现实。 在刺激CS处激发的多巴胺峰值(图1中绿框中的峰值)代表对未来奖励的预测值,而在奖励R处激发的多巴胺峰值(图1红框中的峰值)代表预测结果的实际误差值。 例如,在图1(A)中,奖励R是第一次出现,此时CS处的绿框中并没有多巴胺峰值,意味着当CS出现时,神经元的预测是没有奖励。但是,奖励R却出现了,表明之前的预测完全错了。于是多巴胺大量释放,红框中的峰值最高,峰值大小等于预测误差值。 图1(B),已经开始联结学习。当CS再次出现时,绿框中的较小峰值表示对奖励R产生了一定的预期,但期望不大。当奖励R出现后,依然超出了预期的概率,多巴胺会释放。但红框中的峰值已减小,表示预测误差已经减小了。 图1(C),学习完毕,联结完成。当CS出现时,绿框中的峰值达到最高,可以100预期奖励的出现。奖励R实际出现后,红框中的多巴胺没有峰值。表示预测完全正确,没有任何预测误差。 但是,如果此时奖励R不出现,多巴胺峰值又该如何表达预测结果呢?如图2所示: 图2:撤除奖励R后,多巴胺峰值变化情况。图片来源:Schultz,1998 图2中,当条件刺激CS出现时,该处的多巴胺峰值最高,表示预测将会出现奖励R。但是,奖励R却没有出现,此时,在红圈中的多巴胺峰值出现一个坑,表示预测出错了,那个坑表示预测误差是负值。 用公式表达预测误差会非常清晰,我们用V代表预测误差,公式如下: VRV 其中:V为预测误差(); R为奖励实际出现的概率(); V为预测会出现奖励的概率()。 计算结果如下表所示:次数 n预期 V奖励 R预测误差 VRV 0hr0hr100hr100hr1hr40hr100hr60hr2hr80hr100hr20hr3hr100hr100hr0hr4hr100hr0hr100 这个公式加上学习系数,就是雷斯科拉瓦格纳(RescorlaWagner)模型,即: V(n1)(Vn) V(n1)VnV(n1) 公式中的等于奖励R。 V(n1)为奖励R处的多巴胺峰值大小(上表中红色部分): V(n1)为刺激CS处的多巴胺峰值大小(上表中绿色部分)。 和为学习系数。 后续的研究表明,多巴胺能神经元除了会对奖励做出预测,也会对惩罚做出预测。所以,多巴胺峰值表达的是预测误差。 03奖励预测误差决定幸福快乐 大脑释放的多巴胺(以及随之释放的血清素、内啡肽等)是我们感受到幸福和快乐的基础。但是,多巴胺并不是依据实际得到的奖励释放的,而是根据奖励预测误差释放的。这个相对机制给我们追求幸福的过程制造出很多问题。 以金钱为例,拥有的钱多就能幸福快乐吗? 不管我们挣到多少钱,是成千上万还是百亿千亿,一旦得到了,在短暂的兴奋和快乐过后,那些钱就成为属于我们的财富了。而当神经元预测未来的奖励时,已经拥有的财富会成为计算奖励预测误差的基线。基线之上的收益才算是奖励,跌回基线以下只能算惩罚。 所以,感受到的幸福和快乐,与拥有的金钱财富的绝对数量是不成正比的,它们只与财富的增量成正比。这也是为什么福布斯排行榜单上富豪们看起来永不知足的原因,早就拥有几辈子花不完的钱,却还在苦苦奋斗赚取更多钱财。因为财富一旦没有增量,就没有多巴胺释放了,也很难感受到幸福快乐了。如果增量是负值,即使拥有亿万财富,感受到的却是失落和痛苦。 缺乏多巴胺的富豪一样会抑郁。 就像恒大集团的老板许家印,从一穷二白的穷小子起步,一路摸爬滚打,事业越做越大,成为中国首富。他幸福快乐吗?应该说,这一路走来,他是幸福快乐的,因为财富一直在增长,多巴胺不停在释放。可到后面他就快乐不起来了,因为作为恒大集团的主业,房地产业已经不能继续增长下去了。所以,许家印义无反顾地投入巨资,进入新能源汽车行业,打算换个赛道继续增长。不幸的是,债务爆雷、新车迟迟不能下线,让公司陷入窘境。希望他能绝地翻身,再创辉煌。 那么,怎样才能长久保持幸福快乐呢? 一种方式是每天进步一点点,让自己得到的奖励小幅持续增长,每天都有多巴胺释放,每天都会快乐。不要追求大幅增长,因为那样会很快把基线抬高,增加日后增长的难度。 也有朋友说,把盘子做大,资源会更多,做事会更容易。这样说也有道理,取决于各人利用资源的能力,总的原则是不造成大起大落就好。 另一种方式是降低自己的预期,无论得到什么,都是意外之喜,就会得到多巴胺的释放,同样可以实实在在地感受到幸福快乐。这并不是某些人说的自欺欺人,虽然从身外的物质层面看,好像是没得到什么,或得到的不多,但从内在神经元的层面看,获得的多巴胺是真实的。 04奖励预测误差(RPE)假说的实验证明 分别在2013年和2016年报告的两项实验,证明了奖励预测误差假说的正确性。 这两项实验都用到了光遗传技术,通过在神经元细胞膜上植入光敏蛋白,用某种颜色的激光照射,即能精确地在神经元上激发出动作电位。 也可以在神经元细胞膜上植入另一种光敏蛋白,用另一种颜色的激光照射,即可以把神经元上已经激发的动作电位抑制掉,回到不活动状态。 之前我们多次用到多巴胺能神经元动作电位的峰值,该峰值并不是在一个神经元上产生的,而是由多个神经元中的动作电位叠加而成的。如图3所示: 图3:多个多巴胺能神经元的动作电位叠加出多巴胺峰值示意图,图片来源:Schultz,1998 图3中下半部分的每一个黑点,代表一个被激发出动作电位的多巴胺能神经元,黑点密集的区域(红框内区域),表示有较多的神经元被激活,叠加出来的多巴胺峰值就较高;黑点稀疏的区域,激活的神经元较少,叠加出来的多巴胺峰值就低(图中基线区域);如果没有黑点(蓝框内区域),表明没有神经元被激活,多巴胺峰值就出现一个坑。 如果在神经元细胞膜上植入光敏蛋白,用激光照射后,原来不活动的神经元会被激发出动作电位,这样人为增加了图中黑点的密度,于是叠加出来的多巴胺峰值就更高了,这就是光遗传技术的基本原理。如图4所示: 图4:用光遗传技术激活神经元增加多巴胺峰值示意图,图片来源:拼接P图,仅供参考 (1)第一个实验:人工激发一个虚拟的预测误差,验证能否建立条件反射〔3〕。 第一步:建立标准的条件反射。 A是一种声音刺激,R是一份食物奖励,两者配对出现,启动联结学习,如图5所示: 图5:声音刺激A与奖励R建立条件反射的过程;图片来源:自制 图5。A:声音刺激A与奖励R配对出现,由于A与R之间没有联结,故不能预测R。所以R的出现是个意外,于是激发出较大多巴胺峰值。 图5。B:联结学习进行中,A处的较小的多巴胺峰值代表预测奖励出现的概率较小,R处的多巴胺峰值代表实际的预测误差。 图5。C,联结学习完成,给出声音刺激A,即能激发出100的多巴胺峰值,而R处的多巴胺峰值为0,说明预测准确,没有误差。 第二步:声光组合刺激学习。 A是声音刺激,X是灯光刺激,R是一份食物奖励。 AX同时出现与奖励R配对进行联结学习,如图6所示: 图6:阻塞条件反射示意图;图片来源:自制 图6。A:声音刺激A与灯光刺激X的组合与奖励R配对出现,由于A可以100预测奖励R的出现,预测误差为0,所以在R处不会激发出多巴胺峰值。 图6。B:没有预测误差就不会启动联结学习过程,图形不变。 图6。C:对灯光刺激X进行单独测试,发现多巴胺能神经元对X没有反应,没有峰值。说明X没能与R建立起联结。 已经建立联结的刺激会阻碍另一种刺激建立联结,这种现象称为阻塞(blocking)条件反射。 第三步:同样是AX声光刺激组合实验,但这次给一份食物奖励和一份激光照射模拟的多巴胺动作电位峰值,虽然物理上只有一份奖励R,但神经系统认为得到两份奖励(RR)。如图7所示: 图7:光遗传技术去阻塞示意图;图片来源:自制 图7。A:对于AX声光组合刺激,给出一份真实奖励R和一份激光照射模拟的多巴胺峰值,神经系统认为给出了两份奖励(2R)。由于声音刺激A能预测一份食物奖励R,灯光刺激X没建立联结,预测奖励为0。这样重新产生了预测误差。误差值为2RRR。所以在R处的多巴胺峰值重新出现,启动了联结学习。 图7。B:学习完成后,声音刺激A与灯光刺激X组合可以预测两份食物奖励(RR),预测误差又重新归0,多巴胺峰值消失。 图7。C:用X单独测试,发现X可以激发出多巴胺峰值,说明X学会了与奖励R的联结。 这种被阻塞的刺激又恢复联结学习的现象称为去阻塞(Unblocking)条件反射 (2)第二个实验:人工抑制一个已存在的预测误差,验证能否使条件反射消退〔4〕。 第一步:声音刺激A与灯光刺激V分别与一份食物奖励R配对学习,建立条件反射,如如8所示: 图8:声音刺激A与灯光刺激V分别与奖励R建立条件反射示意图;图片来源:自制 第二步:声光刺激AV组合同时出现,与两份食物奖励RR配对,然后通过激光照射抑制掉后一份奖励R对应的动作电位。此时,虽然物理上给出了两份奖励(2R),但神经系统认为只得到一份奖励R,如图9所示: 图9:光遗传技术引发过度期待示意图;图片来源:自制 图9。A:声音刺激A和灯光刺激V各自预测一份食物奖励R,所以合计预测两份奖励(2R),实际给出两份奖励(2R),预测误差(2R2R)0,没有预测误差,没有多巴胺峰值,不会启动联结学习。 图9。B:在给出两份食物奖励(RR)的同时,用激光照射抑制掉被后一份奖励R激活的神经元动作电位,使神经系统认为只得到一份奖励R。于是预测误差重新出现,其值为:R2RR。误差是负值,代表多巴胺峰值在0轴以下,即多巴胺峰值的坑。负的预测误差会启动联结的消退学习。 这种情况称为过度期望(overexpectation)条件反射,即预测得到的奖励大于实际得到的奖励,期望过高了。 图9。C:消退学习完成后,AV的刺激组合可以正确预测一份食物奖励R,预测误差回到0。这意味着每个刺激只能预测0。5份的奖励R了。 第三步:单独对光刺激V进行测试,发现确实只能激发0。5份的多巴胺峰值。如图10所示: 图10:单独用灯光刺激V进行测试,只激发出0。5份的多巴胺峰值。图片来源:自制 这两个实验通过人为操纵多巴胺能神经元动作电位,欺骗神经系统。在第一个实验中,实际只给出一份奖励R,但是却用激活动作电位的方式表达收到两份,神经系统相信了,并启动相应的联结学习,建立起新的条件反射。结果符合奖励预测误差的假说。 第二个实验则反过来,实际给出两份奖励2R,却人为抑制动作电位,表达只收到一份奖励R。神经系统也相信了,并启动相应的联结消退学习,结果符合奖励预测误差的假说。 两个实验从正反两方面证明,多巴胺能神经元动作电位的峰值,表达的是对奖励的预测误差,不但能正确定性预测有无奖励,还能精确定量预测奖励多少。如果预测结果出现误差,系统会启动学习机制自我纠正。实验证明奖励预测误差的假说是完全正确的。 完 参考: 〔1〕SchultzW。Predictiverewardsignalofdopamineneurons。JNeurophysiol。1998J80(1):127。 〔2〕Schultz,W。,Dayan,P。,Montague,P。R。(1997)。Aneuralsubstrateofpredictionandreward。Science,275(5306),15931599。 〔3〕Steinberg,E。E。,Keiflin,R。,Boivin,J。R。,Witten,I。B。,Deisseroth,K。,Janak,P。H。(2013)。Acausallinkbetweenpredictionerrors,dopamineneuronsandlearning。Natureneuroscience,16(7),966973。 〔4〕ChangCY,EsberGR,MarreroGarciaY,YauHJ,BonciA,SchoenbaumG。Briefoptogeneticinhibitionofdopamineneuronsmimicsendogenousnegativerewardpredictionerrors。NatNeurosci。2016J19(1):1116