《战争与和平》-诺贝尔奖获得者罗伯特-奥曼所做的讲座

此讲座发表于2011年9月9日中以学术交流促进协会举办的中以研讨会

2005年瑞典银行纪念阿尔弗雷德·诺贝尔经济科学奖公告为冲突与 合作的博弈理论分析颁奖。就人类社会目前所面临的最迫切,最深刻的问题-战争与和平的问题来说,这次的演讲无疑是选对了时机。我认为我也许我们应该改变我 们努力的方向,我们应该努力为世界带来和平。迄今为止,对于印巴冲突,南北爱尔兰问题,各种非洲战争,巴尔干战乱,俄罗斯与车臣的问题,阿以冲突等等,我 们投入了所有的精力企图解决这些具体的冲突问题。然而,我觉得我们的重点应当转移到战争问题的全方位研究上。

我来做个对比。癌症有两种治疗方法,一种是临床治疗,例如乳腺癌,加入你不幸患 上了怎么办?动手术?放疗?化疗?哪种化疗方法?放疗到什么程度?要切除淋巴结吗?只有通过临床试验才能得出这些答案,而且是准确有效的答案。你应该在掌 握充分信息的基础上选择不同的治疗方法。而你的目标就是把你眼前的病人治愈或者是减轻他们的痛楚。

Robert Aumann at SIGNAL's Symposium

Robert Aumann at SIGNAL’s Symposium

还 有另外一种方法。你不做手术,不做放疗,不做化疗。你不看那些数据,你根本不看病人。你只是试图找出癌细胞里有什么问题。跟DNA有关系吗?是怎么发生 的?过程是怎样?不去尝试治愈它,而是试图了解它。你用小白鼠做实验,而不是人。你试着把它们弄出病来,而不是治愈它们。

路易斯·巴斯德(Louis Pasteur)是一个内科医生。对于他来说,重要的是为病人治疗,治好他们。但是罗伯特·科赫(Robert Koch)不是这样的医生,他没有试着去治病救人。他只想知道传染病是怎样传染开去的。最后,他的研究成果对于治疗和治愈病人极其重要。战争,从文明的曙 光开始后就一直与我们同在。人类历史上没有什么比战争更加恒久不变。战争是一种现象,而不是一系列孤立的事件。

努 力解决具体的冲突当然是值得赞扬的,而且有时候真的能见效。但是,还有一种方法可以解决战争-将战争作为一种普通现象进行研究,研究战争普遍性,找出战争 的特性,它们的共同点是什么,区别在哪里?是历史的原因?社会的原因?心理范畴的原因-合理性。为什么“homo economicus”-理性的人类-会打仗?

我说的“合理性”是什么意思?意思就是:

如果有充足的信息,符合其最大利益,人的行为就是理性的。

按照这个定义来说,战争是理性的吗?不幸的是,答案是肯定的:战争就是理性的。在亚伯拉罕·林肯第二次宣誓就职时发表的最伟大的演讲之一中说到:“双方都声称反对战争,可是有一方宁愿打仗而不愿让国家生存,另一方宁可接受战争而不愿让国家灭亡,于是战争就来临了。”

说战争是非理性的,这 大错特错。我们可以把这个世界的苦难例如战争,罢工,种族歧视-我们斥责它们为非理性的。(但)它们不一定都是不合理的。虽然这的确伤人,但他们可能就是 合理的。如果我们了解战争是具有合理性的,,至少我们就能够从某种程度上解决这个问题。如果我们只是简单地斥责其为非理性行为,那将无济于事。

多 年前我参加了耶鲁大学的一场学生研讨会。当时吉姆·托宾(Jim Tobin)也在,他后来获得诺贝尔经济学奖。大家各抒己见,畅所欲言,有人提出了这样一个问题:能不能用一个词概括经济学?托宾说他能。这个词就是 “incentives”(动机)。经济学的一切都与动机有关。所以,我想对战争进行经济学方面的分析。这句话不能从表面字义上理解。我想要讨论的不是怎 样资助一场战争,也不是怎样进行战后重建,或者类似的事情。我要讨论的是导致战争的动机,以及建立其防止战争的动机。

举个例子。经济学教会我们,事情不一定总是其表面上显示的那样。比方说,你们打算征税,提高财政收入。要这样做,很明 显你们就要提高税率对吧?不对!你可能想要降低税率。给人们工作的动力,或减少避税和逃税,或让经济升温或其它种种。这只是一个例子,还有成千上万个这样 的例子。经济就是一种博弈,参与者的动机彼此不同,相互影响,导致了一个出人意料而且常常是违背人们直观判断的结果。事实往往如此。

现在我们回到有关战争以及理性人homo economicus的问题上。我们继续用上述例子的思维过程进行论述。你们想阻止战争。要阻止战争,显然你们应当废除军备,减少(降低)军备水平,对 吗?不对!你们想做的事情可能正好完全相反。美国与前苏联冷战多年,而阻止“热战”的却是一年365天,一天24小时在空中飞来飞去,携带核武器的轰炸 机。(解除武装的努力恰恰会导致战争的出现。)

结论就是,我们应该从各个角度研究战争,了解战争的目的以及当中的利益关系)。纯粹的基本的科学,最终可能带来和平。到目前为止,头疼医头,脚痛医脚的方法,并不能完全解决问题。

现在,我想回到我自己的基本分析上面,颁奖委员会引用了其中的一部分。谈到具体的问题,我们来讨论重复博弈,讨论他们与战争,与其它冲突,如罢工,以及所有具有动机的情况等等有着怎样的关系。

重复性博弈模式的长期互动。重复性博弈理论可以解释那些表面看起来是非理性的现象,比如利他主义、合作、信任、忠诚、报复、威胁(自毁式或者相反),这是从博弈理论和新古典经济学中的“自私”效用最大化法则的角度上看的。

解释 这种现象的理论并不是告诉我们说人们是故意去报复别人或者有意摆脱自私和理性的控制而慷慨待人。相反,经过上千年的进化,人们已经形成了一套成熟而且是最 佳的行为规范。这样的进化实际上是生物性、基因性的,或者是memetic。这个词起源于“meme”(模因,即文化基因),由生物学家理查德·道金斯创 造,与“gene”(基因)这个词相对,并且用来描述人的社会性,而不是生物性、遗传和进化。

博弈理论的一大发现诞生于十七世纪初,当时生物学家约翰·梅纳德·史密斯和乔治·普莱斯发现博弈中的均衡 和现实世界中的人口均衡竟然是由一样的等式确定的。进化—基因性或者模因性—导致了策略性的均衡。我们要谈论的是,在重复性博弈里,策略性的均衡解释了例 如利他主义、合作、信任、忠诚、报复、威胁等等的现象。我们来看一下具体的情况。

我所讲的“策略性的均衡”是什么意思呢?笼统来说,在一场博弈中,当各方的表现彼此都是属于最优的,在假定的策略环境中每一方的行动和计划都是理性的—也就是每个人都知道对方的行动和计划,我们就会说他们处于一种策略均衡的状态。

约翰·纳什提出和发展 了策略性均衡概念并因此获得1994年诺贝尔经济科学奖。那一年也刚好是约翰·冯·诺伊曼和摩根斯顿所写的《博弈与经济行为理论》出版15周年。而与约 翰·纳什分享这个奖的还有约翰·哈萨尼和莱因哈德·泽尔藤。前者提出和发展了贝叶斯定理均衡的概念—也就是不完整信息下博弈的策略性均衡。后者提出和发展 了完全均衡的概念,这是对纳什概念的完善,也是今天我们接触得比较多的。另外相关均衡的概念(奥曼1974年,1987年)和强均衡的概念(奥 曼,1959年)都在2005年诺贝尔奖的颁奖上面世。上诉的三个基本概念构成了非合作博弈理论的基础。

1994年之后,两次诺贝尔经济科学奖都是颁给了这些基 本理论的应用。第一次是1996年,威廉·维克瑞因他在拍卖领域做出的贡献而得奖,不过这是他逝世以后的事情 了(维克瑞逝世于诺贝尔奖宣布和颁发典礼之间)。拍卖的设计和投标策略是博弈理论的首个实际应用,在这方面威尔逊在1992年做了一定的贡献。

第二次是2005年。谢林教授独自提出和撰写了他的成果。而至于你们谦卑的仆人,他因把上诉提到的基本均衡概念运用到重复性博弈而得奖。重复性博弈就是你年复一年地与同样的人进行同样的博弈。有人会把这种状况看做是单独最大的博弈—所谓的超级博弈G,记为G∞—规则是每年都重复进行这个G博弈。这种观点是把上诉的均衡概念运用到超级博弈而不是一次性的博弈里,从而观察人们会得到什么。

在这个过程中出现的重复性博弈理论具有非常丰富而深入的内涵(….)。我可以在短时间内把握住它的表面含义。让我们来尝试一下。我将简要地讨论其中一个方面:合作性。笼统来说,结论就是:重复使得合作成为可能。

更具体点说,我们用合作这个词来描述一场博弈所有有可能出现的结果,只要没有人保证他将得到更好的结果。通常来 说,合作导致的结果并不是一种均衡,而是一种协定。这点非常重要。举个例子。在著名的“囚徒困境”博弈里,囚犯供认自己的罪行并不是一种合作的结果,而是 他们最佳利益的选择,尽管彼此都拒绝供认对双方更有利。

一个更简单的例子是以下所谈到的H博弈:有两个人,罗威娜和科林。罗维娜面 临两种选择:一是她和科林得到同样的数量10,二是她得到大于10的数目而让科林得到的数目少于10,她必须在两者中选择一个。同样地,科林也必须在是否 做出惩罚上选择。如果他选择了惩罚,他受到的囚徒待遇就会被取消;否则,两个人将什么也得不到。这个博弈模型是建立在惩罚…..而让双方所能得到10是一 种合作的结果,因为没有人能保证自己会比对方得到更多。这个有点类似囚徒困境,均衡并不适用。

为什么合作的结果如此有趣,尽管他们不是通过均衡来实现的?原因就是他们是通过合同和协议来实现的。在这种情况下,合同是有强制力的。这种情况还有很多,例如有关法庭制度的国家法案。

《塔木德》(Avot 3, 2)里说到,“人们恳求政府给予他们福利。如果没有政府的权威保证,人们会彼此相吃”。如果合同有强制力,罗维娜和科林就能够通过协定来得到合作的结果,否则,预想中的目的是无法实现的。

从以上考虑而建立发展起来的博弈合作理论比纳什的成果还要早一个世纪(冯·诺依曼和摩根斯坦,1944年)。这个理论内涵丰富,富有成效。在我看来,它产生了博弈理论中的中心—洞察。我们现在不讨论这些洞察方面的内容,它们在以后也得到了诺贝尔经济科学奖。

我想在这里讨论的是合作性博弈理论和重复 性博弈的联系。而提到的基本理念就是当当每个人都寻求自己的最佳利益时,重复就如一种强制机制,使得合作在均衡中产生。从直观上来说,这是众所周知的。人 们在一种长期的合作关系中会更趋向合作。他们明白只要还有明天,他们就会因其不妥当的行为而遭受惩罚。欺骗顾客的商人可能会赚取短期的利润,但他的生意却 不会长久。

我们来解释一下H博弈。如果这个博弈只进行一次,那么罗维娜选择贪婪显然对她更有利,而科林也只能勉强同意(事实上,这些策略都是显而易见的)。尽管科林不想得到这样一无所得的结果,但他对此也无能为力。从技术层面上说,唯一的均衡只有(G,A).

但是在超级博弈H∞中,科林能有所作为。他可以通过惩罚罗维娜的贪婪来威胁她,这使得罗维娜在选择贪婪时不得不多加考虑。事实上,从某种意义上说,这就是纳什所说的均衡。罗维娜的策略是“永远选择E”,而科林的策略是“只要罗维娜选择E,他就选择A;如果她选择G,他就之后一下选择P”

我们要清楚,正是惩罚的威胁维持了这些博弈中的均衡。如果你愿意的话也可以称之为“MAD”—确保 相互攻击,这是冷战的格言。做这件事必须有警示。贴现率不能太高,即使是超过10%-如果一美元在一年内贬值低于90美分,那么合作已经不大可能了,因为 罗维娜选择贪婪时需要更多顾虑。原因是尽管科林会惩罚她以及科林自己,之后估价,全部的惩罚价值少于90美元,这个是罗维娜选择贪婪而不是平均后的结果。

我 说的不是你从银行里得到的货币贴现率。我说的是个人主观折扣率。由于重复会导致合作的出现,所以博弈中的人不能太急切追求直接的结果。现在,目前,并不大 重要。如果你现在希望得到和平,那你将永远得不到和平。但如果你肯花时间,你愿意等待,那将改变整个局面,你能因此拥有和平。

这是博弈理论里似是而非而而且颠倒的思想之一,但大多是科学的。一两个星期前,我了解到由于全球变暖的影响墨西哥暖流的方向 有所改变,从而导致了欧洲的降温。气候的变暖竟然会导致降温!追求和平反而会永远得不到和平。但是如果你愿意等待,或许现在你就可以享受到和平了。理由如 下:如果现阶段人们不选择合作,那么他们在超级博弈追求均衡里的合作的策略就会涉及到选择之后的惩罚。如果折扣率过高,博弈者就会更注重目前的利益,而一 次性的自私和贪婪能将之后多次的损失补回。这样就损害了惩罚在后阶段的作用。

总结来说:在超级博弈H中,合作的结果(E,A)是可以实现均衡的,这是很多例如无名氏定律这样的大众原则的特例。这种无名氏定律是任何G博弈的任何合作的结果都是可以实现超级博弈G∞的均衡—尽管那样的结果不是G博弈的均衡结果。相反地,G∞博弈里的每一个策略均衡结果都是G博弈的合作的结果。简短地说,对于任何的G博弈,我们有这样的无名氏定律:G博弈的合作的结果与其超级博弈G∞.的均衡的结果相一致。不一样的是,重复扮演着强制机制的角色:当一次性博弈不存在的时候,重复使得合作成为可能。当然,以上的警告同样适用于:为了让这理论发生效用,不能过于降低所有代理的折扣率;他们经过对目前与未来的对比后,对现在并不是那么感兴趣。

还有一点,和1994年诺贝尔奖有关。约翰·纳什因其创立均衡论而获奖;莱因哈德·泽尔藤因其创立完美均衡理论而得奖。完美均衡理论从大概上是说惩罚的威胁是可信的,如果你不得不承受惩罚,那么在你得到惩罚之后,你还是处于一种均衡的状态—你并没有动机去摆脱这点。

这当然不是我们在H博弈里的超级博弈H∞所描述的均衡的情况。如果罗维娜不管科林的威胁而选择了G,那么对科林来说,惩罚她不符合自己的最佳利益。这样在重复性博弈里就出现了一个问题,(E,A)是否能不仅在策略性的均衡而且也在完全均衡中得以维持?

答案是可以的。1976年,劳埃德·夏普利—他是我认为有史以来最伟大的博弈理论家—我我证明了什么是完美无名氏定律;艾莉尔·鲁宾斯坦也独立提出了类似的成果,而且是和他同时提出来的。两个成果都是很晚才得以公布(奥曼和夏普利1994年,鲁宾斯坦1994年)。完美无名氏定律说在任何G博弈中的超级博弈G∞里,任何G的合作的结果都能够作为G∞的完全均衡的结果而得以实现—再次讲,尽管那样的结果不是一种G的均衡性结果。也有人持有和这结论相反的观点。

简而言之,对于任何G博弈,我们有完美无名氏定律:G博弈的合作的结果与其超级博弈G∞.的均衡的结果相一致。重复作为一种强制机制,它使得一次性博弈中不可能出现的合作成为可能,尽管同时在完全均衡的严格要求下有人会替换作为成就感标准的策略性均衡。

完美无名氏定理的论证是非常有意思的,我会在H博弈里粗略地说明这一点,也就是合作的结果(E,A)。第一个例子,均衡直接始终扮演着(E,A) 的角色。如果罗维娜不顾一切选择了贪婪,那么科林将惩罚她—进行P。但是他不会一直这样选择,除非罗维娜的做法导致无利益可寻。事情本身是不足够让科林实 施惩罚的,一定还存在着其他的动机。这时该证明的中心观点就出现了:如果科林不惩罚罗维娜,那么罗维娜就会因此通过进行G来惩罚科林。而且,这个过程将不 断地持续—任何不实施惩罚的博弈者将因此被对方惩罚。

人们在社会中大多受上述原因的影响。如果你驾车超速而被警察截住了,你并不会贿赂他,因为你担心他会控告你行贿。但是为什么警察也不会接受贿赂呢?因为他害怕你告发他受贿。可是你为什么会告发他?—因为如果你不告发,他可能因此而控告你。诸如此类。

这把我们带到了最后一条。合作性博弈理 论不仅包括所描述的各种可能的合作的结果,而且还包括在那些可能的结果中选择。要做到这点有很多方法,但最有名的莫过于劳埃德·夏普利在上个世纪五十年代 初提出的核心观念。一场博弈中的结果X被认为处于博弈的核心,这是在没有S里的博弈者能够改善这一切的条件下—也就是,确保在S里的博弈者们得到的结果比 他们在X里面得到要好。尤其是,这个核心概念在经济学上的博弈理论的应用上扮演着中心的角色。具体而言,在有着很多无关紧要而独立的代理人的经济中,这个 核心的结果与合作的结果是一样的(a.k.a.瓦尔拉斯)—这些结果是由追求商品供需平衡的价格体制所定义的(德布鲁和…1963年,奥曼 1964年)。这个核心观念的另一个杰出应用是匹配的市场(see,e.g,gale 和夏普利1962年,罗斯和索托马约尔 1990年)。还有很多其他的应用(调查,安德森1992年,Gabszewicz1992年,Shitovitz1992年,Kannai1994年,库尔兹和Young1994年)

我 再次强调,重复性博弈的均衡彼此有很深的联系。当一场博弈中的博弈者处于(策略)均衡的状态,任何一方都不值得去选择另外一种策略。强韧均衡也有类似定 义,除了不值得任何博弈者偏离 –至少有一个偏离方向的博弈者不会因偏离而获益。后来我们又提出了以下的定理(奥曼1959): G的核心结果与超级博弈G∞的强韧均衡结果恰好一致。

约翰·纳什(John Nash)在其1950年发表的论文中提出了战略均衡这个概念,为此他获得了1994年的诺贝尔经济学奖,他还提出了后来所谓的纳什方案-表达一些适当定 义的非合作博弈中合作性博弈的概念,建立起合作性博弈与非合作性博弈之间的桥梁。 上述三种定理表明,重复性正是这样一种桥梁-它实现了纳什方案。

最后,我们借先知以赛 亚的一段话做个结尾:“ 必有许多国的人前往,说,来吧,我们登耶和华的山……,主必将他的道教训我们,我们也要行他的路……,他必在列国中施行审判,为许多国民断定是非;他们要 将刀打成犁头,把枪打成镰刀。这国不举刀攻击那国,他们也不再学习战事。” 以赛亚说的是,如果有一个所有人都认可的中央政府-即上帝,那么各个国家就会将刀打成犁头。缺乏这个前提,一个国家可能也有和平-这个国家没有举刀攻击另 一个国家。但是,刀剑必须还是放在那里-不能把它们打成犁头-各个国家还是要了解战事-从而避免战事。

作者:罗伯特·约翰·奥曼
English
Published: 02-01-2013