第1章 博弈论,策略的选择
博弈论(Game Theory),看起来玄而又玄,似乎高深莫测,但直译下来就是游戏理论的意思。不妨说,博弈论就是通过玩游戏而获得一些人生竞争策略的理论。
在博弈论的所有案例和模型中,囚徒困境无疑是最著名的,可以说,不谈囚徒困境,就无从谈博弈论。
什么是博弈论?
博弈论,又叫对策论,是研究两人或多人之间竞争合作关系的一门学科。用我们日常的语言来说,博弈论就是研究在不同情境下策略选择的一种理论。它既是经济学的一个重要学科,也是现代数学的一个新分支。
在经济学上,博弈论是一个非常重要的理论概念,通过使用严谨的数学模型来解决现实生活中的各种利害冲突问题。具体来说,博弈论是指某个个人或是组织,在一定的环境条件和规则约束下,依靠所掌握的信息选择并实施各自所倾向的行为或是策略,从中取得相应结果或收益的过程。
博弈论思想古已有之,早在2000多年前,博弈论的原始思想即已萌芽。古代文献中不乏充满博弈思维的案例。《孙子兵法》《三十六计》《三国演义》等等,就不仅仅是军事著作,而且可以算是很好的博弈论教材,只不过还没有上升到现代博弈论的层次而已。
博弈论最初主要研究的是象棋、围棋以及赌博中的胜负问题。那时候,人们对博弈局势的把握只停留在经验层面上,并没有向理论层面发展,其正式发展成一门学科则是在20世纪初。
1928年,美籍匈牙利数学家约翰·冯·诺伊曼提出了博弈论的基本原理,并与经济学家奥斯卡·摩根斯顿合作,于1944年发表了《博弈论与经济行为》一书,提出了合作博弈的基本模型,并将二人博弈结构推广到n人博弈结构。自此,博弈论被引入了经济领域,奠定了这一学科的基础和理论体系。人们都把诺伊曼和摩根斯顿的这部巨著看作是现代博弈理论诞生的标志。
目前,博弈论作为分析、解决冲突和合作的理论工具,已经在管理学、国际政治学、经济学、外交学和社会学等领域得到了广泛的应用,为解决不同实体的冲突和合作提供了宝贵的方法,并日渐发展成为一热门学科。
◇博弈的三要素
任何一局博弈都至少包含以下三个基本要素:
——决策主体
决策主体,又译为参与者、局中人或博弈者。在一场竞赛或一局博弈中,每一个有决策权的参与者都构成一个决策主体。
决策主体的目的是通过选择行动方案或者战略以使自己的效用水平最大化。只有两个决策主体的博弈称为两人博弈,多于两个决策主体的博弈称为多人博弈。一局博弈中的决策主体可以是自然人,也可以是团体:如企业、国家等。
——策略
策略,又译为战略,即决策主体在给定信息的情况下的行动规则,它规定了决策主体在什么时候采取什么行动。
一局博弈中,每个决策主体都会选择实际可行的、完整的行动方案。一个可行的自始至终地对全局进行筹划的行动方案,称为这个决策主体的一个策略。如果在一局博弈中决策主体的策略是有限的,就称为有限博弈,相反则称为无限博弈。
——效用
效用,又叫作支付,是指在一个特定的策略组合下,决策主体得到的确定效用水平,或者说是期望效用水平。简单来说,效用就是指进行博弈后的收益。
效用是所有决策主体真正关心的东西,每个决策主体在一局博弈结束时得到的效用,不仅与该决策主体自身所选择的策略有关,而且与全部决策主体所取定的一组策略有关。一局博弈结束时每个决策主体得到的效用是全体决策主体所取定的一组策略的函数,通常称为支付函数。
◇博弈的分类
博弈可以从多个角度进行分类。
——按照博弈各方是否同时决策,博弈可以分为静态博弈和动态博弈
静态博弈是指在博弈过程中,参与者同时决策或同时行动,或者尽管决策或行动有先后顺序,但后行动者并不知道先行动者采取了什么具体的决策或行动。比如说工程招标(排除标书泄密的违规行为),其截止日期是6月1日,尽管有的竞标者在5月上旬就投了标,有的竞标者直到5月下旬才投标,参与者的决策时间有先后之分,但效果却与同时决策是一样的。
动态博弈是指在博弈过程中,参与者的行动有先后顺序,并且后行动者可以观察到先行动者所采取的行动。
——按照参与者对其他参与者的了解程度,博弈可以分为完全信息博弈和不完全信息博弈
完全信息博弈是指在博弈过程中,每一位参与者对其他参与者的策略空间、策略组合及收益信息有完全的了解。
如果参与者对其他参与者的策略空间、策略组合及收益信息了解得不够确切,或者说并没有掌握所有参与者的策略空间、策略组合及收益信息,在此种情况下进行的博弈就是不完全信息博弈。此时,参与者所能做的就是努力使自己的期望支付或期望效用最大化。
——按照参与者能否达成约束性的协议以便集体行动,博弈可以分为合作博弈和非合作博弈
合作博弈是指所有参与者都从利己的角度出发,与其他参与者进行谈判并达成具有约束力的协议或形成联盟,参与者在协议范围内进行博弈,其结果对联盟各方均有利。合作博弈主要研究人们达成协议时,如何分配合作得到的收益,即收益分配问题。
合作博弈强调团体的理性、效率、公平和公正。典型的合作博弈是某一行业的寡头企业之间的串谋行为,即企业之间通过公开或者私下签订协议,对各自的价格或产量进行限制,以达到获取更多垄断利润的目的。
反之,不能使其他参与者遵守某一协议,各参与者只能选择自己的最优战略的行为,则属于非合作博弈。非合作博弈主要研究人们在利益相互影响的局势中如何选择、决策,使自己的收益最大,即策略选择问题。
非合作博弈强调个人理性、个人最优决策。下面将要讲到的囚徒困境就是典型的非合作博弈。因为非合作是当今社会中利益博弈的常态,所以非合作博弈是博弈论探讨的主要内容。
非合作博弈按照参与者对其他参与者的信息掌握程度和博弈各方采取行动是否有先后顺序,可以分为四种不同的类型,即完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。这四类博弈一个比一个精彩,也一个比一个难。
完全信息静态博弈——是指在博弈过程中,所有参与者事先达成一项具有约束力的协议,制定每个决策主体的行为规则。如果在没有外在强制性约束的情况下,各参与者自觉遵守该协议,没有人违反协议规则,就构成一个纳什均衡(概念见第2章)。只要有一个参与者违背协议规定,则此协议就构不成纳什均衡,就不可能自动实施,不满足纳什均衡要求的协议是没有任何意义的。
完全信息动态博弈——动态是世间万物的基本特征,而静态只是一种独特的理想状态。在现实生活中,当一个参与者后采取行动时,自然会根据先前参与者的选择而适时调整自己的决策,而先采取行动的参与者也会理性地预料到这一点,所以也会考虑自己的选择对其他后行动参与者的影响。
不完全信息静态博弈——是指参与者同时采取决策或者说决策虽然有先后顺序,但后行动者并不知道先行动者的决策,也没有机会观察先行动者的选择以调整自己的决策。每个参与者的最优策略只能是在给定自己的类型和他人类型依从策略的情况下,使自己的期望效用最大化。
不完全信息动态博弈——是指各个参与者采取的决策有先后顺序,且后行动者掌握了前者的选择,获得了其偏好、策略空间及策略组合等信息,并依此修正自己的决策;而先行动的参与者也知道自己行为的效用对后行动者的影响,也会有意识地选择某种行动来掩盖自己决策的真实目的。
博弈论是一门现实中非常有趣,理论上又颇有深度的学问。可以毫不夸张地说,掌握博弈论知识对每一个现代人来说实在是太重要了。因为在现实社会中,每个人都在试图使自己的利益最大化,而在取得利益的过程中,往往会产生矛盾与冲突。利益均衡的实现主要取决于各自的策略选择,而策略选择问题实际上就是博弈论的本质所在。
囚徒困境:坦白还是抵赖?
囚徒困境最早是由美国普林斯顿大学数学家塔克于1950年提出来的。他当时编纂了一个故事,意在向斯坦福大学的心理学家们解释什么是博弈论。后来经过发展,囚徒困境成为了博弈论中最著名的案例之一。
所谓囚徒困境,大意是这个样子的。
有一天,某富翁在家中被杀,财物被窃。警方在侦破此案的过程中,抓到了汤姆、杰克两个犯罪嫌疑人,并从他们的住处搜出了被害富翁家中丢失的财物。面对呈现在眼前的物证,他们承认了自己的偷窃行为,但却矢口否认杀害富翁,辩称是先发现富翁被杀,然后他俩只是顺手牵羊偷了点儿东西。
针对两人的狡辩,警方对他们进行了隔离审讯。为了分化瓦解他们,检察官分别对两人说了以下一段话:
本来你们的偷盗罪证据确凿,可以就此判你们1年刑期。但是,按照将功赎罪制度,如果你主动坦白并且揭发同伙的杀人罪行,我们将对你进行从宽发落,判你无罪释放,但你的同伙要被判30年刑期;如果你顽抗到底,拒不坦白,而被同伙检举出你的杀人行为,那么你就要受到严惩,将被判刑30年,你的同伙将被无罪释放;当然,如果你们两人都坦白,那么你们都将只被判15年刑期。
在这里,博弈的决策主体——汤姆和杰克各有两个选择,即坦白和抵赖。
这两个嫌疑犯该怎么办呢?他们面临着两难的选择——坦白还是抵赖。显然最好的选择是两人都选择抵赖,都得到最好的结果——只判刑1年(杀人罪按照疑罪从无原则,证据不足无法成立,只能以偷盗罪各判每人1年刑期)。但是由于两人处于隔离的情况下,没有串供的条件,所以他们不得不仔细考虑对方可能采取什么策略,以及对方采取的策略对自己有什么影响。
心理较量就这样开始了,汤姆和杰克都是绝对精明的人,都只在乎减少自己的刑期,并不关心自己的选择会对对方产生什么影响,对方因为自己的决策又将被判多少年刑期。
汤姆会这样推理:假如杰克选择抵赖的话,我只要坦白,马上就可以无罪释放,获得自由,而我若抵赖则要坐牢1年,显然坦白比抵赖要划算得多;假如杰克选择坦白的话,我若抵赖,则要坐30年牢,坦白却只坐15年牢,显然还是坦白为上策。所以说,无论杰克选择抵赖还是坦白,我的最佳选择都是坦白,还是坦白交代了吧。
同样,杰克也跟汤姆一样会算计,也会如此推理。
囚徒困境之所以称为困境,就是因为这局博弈的最终结果对两个参与者来说都是最坏的,两个嫌疑犯双双选择坦白,结果皆被判刑15年。这对他们个人来说都是从自身利益出发的最佳选择,符合他们的个体理性选择。因为坦白交代者可能会被无罪释放,显然比自己抵赖可能会独自承受30年刑期要好。而原本对双方都有利的策略——两个人都抵赖,每人被判1年刑期就不会出现。
囚徒困境是典型的非合作博弈的范例,为我们探讨合作是怎样形成的提供了极为形象的解说方式,其产生不良后果的原因是两个嫌疑犯都从利己目的出发,最终导致损人不利己,合作没有产生。反过来我们就可看到:彼此达成合作是最好的利己策略,但合作必须符合以下黄金定律:“己所不欲,勿施于人。”在此基础之上的合作才能形成一个和谐的、良好的社会环境。
在囚徒困境中,最好的策略直接取决于对方所采用的策略,取决于对方所采取的策略为发展双方合作留出多大的余地。独立于对方所用策略之外的、从利己目的出发的、最好的决策是不存在的。
实际上,囚徒困境是现实生活中许多现象的一个抽象概括,有着广泛而深刻的意义。同一行业不同企业之间激烈的价格竞争就是囚徒困境的典型现象。在价格博弈中,只要双方都以对方为敌手,只关心自己的利益,那么不管对方采取怎样的决策,自己采取低价策略总会占便宜,就如同囚徒困境中的犯罪嫌疑人始终认为自己坦白为最佳决策一样,这就促使双方都采取低价策略。如可口可乐公司和百事可乐公司之间的价格竞争、各大航空公司之间的价格战等等。
如果双方进行合作,共同制定比较高的价格,就可以避免无休止的价格大战并获得较高的利润。但是这些企业往往处于利益驱动的囚徒困境之中,双赢也就成了泡影。不同企业之间五花八门的价格联盟总是非常短命,原因也就在这里。
合作,有时是利益需要
农村某地有一个只有上官、欧阳两户人家的小居民点。由于地处偏僻,交通不便,两户人家与外界的交流十分困难,急需修一条通向外界的公路。假设修这条路的成本为4个单位,每户人家从修好的这条路上获得的好处为3个单位。如果没有中间人协调,上官、欧阳两家就各自打着自己的小算盘:
若两家共同出钱联合修路,每家平均分摊修路成本2个单位,则每户人家获得的好处为1(3-2=1)个单位。当只有一户人家出钱修路而另一家坐享其成时,修路的那户人家付出4个单位的成本,却只得到3个单位的好处,获得的纯盈利为-1(3-4=-1)个单位,也就是得不偿失,倒贴1个单位,结果是亏损的;而坐享其成的一家却可以使用修好的公路(修路人并不拥有道路的占有权,总不能因为修了路就不让邻居走),白白获得3(3-0=3)个单位的好处;如果上官、欧阳两家都不修路,两家的纯盈利皆为0。归纳起来,是否修路的得失情况如图所示:
对上官家来说,若欧阳家修路,我家也修路,会获得1个单位的好处,而我家不修路,则会获得3个单位的好处,显然修路是劣势策略;若欧阳家不修路,我家修路,则净亏损1个单位,而我家不修路,则不赢也不亏,修路还是劣势策略。因而上官家决定不出钱修路。同理,欧阳家也会选择不修路。最终修路博弈的结局将是:两家都不动手,大家都得零。这就应了英国历史学家麦考莱的一句话:“大家的事情反而无人管。”
一般情况下,若上官只有欧阳一家邻居,欧阳也只有上官一家邻居,他们两家多半会互帮互助,好好商量修路的问题,合力把路修好,大家都得到方便。但是如果出现极端情形,如两家有仇,那就另当别论了。但是,这两种情形都不在博弈论讨论的范围之内。如果不附加说明,博弈论讨论所牵涉的参与者,都是经济学上的理性人:他们并没有私人恩怨,也不是世代友好,而只是具有自私本性但并不刻意损害他人利益的人类一员。
公共品和私人品的性质不一样。私人品是纯属私有私用,别人很难占到什么便宜。但公共品就不一样了,不管由谁提供出来,大家都可以共享。典型的如公园里的长椅,只要有人出钱出力设置好了,所有行人都可以坐下休息,哪怕他没有为此做出丝毫贡献。那么,这长椅由谁来设置呢?恩惠于大家的公共事情又由谁来管呢?
这就是公共品供给的囚徒困境:如果大家都只考虑到自己的得失,只打自己的“小九九”,结果是谁也不付出,得过且过,也就排除了合作双赢的前景。所以,公共品问题一定要有人协调和管理,大家的事情要有专人进行协调管理。其实,这就是政府的主要职能之一。对于一个国家来说,最重要的公共品是国防公安、基础设施、科教文卫等。政府责无旁贷地要用来自纳税人的钱,把科教文卫、基础设施和国防公安等属于大家的事情做好。
在修路博弈中,为了解决这条通往外界公路的修建问题,需要政府牵头,强制性地分别向上官、欧阳两家各征税2个单位,然后投入4个单位的成本修建好这条能给两家都带来好处的公路。有句俗语不是说嘛“要想富,先修路。”路修好了,就可以使两户居民的生活水平在一定程度上得到改善。通常也只有政府出面,大家才能走出谁都不愿意去修建公共设施的囚徒困境。当然了,羊毛出在羊身上,公民税收是必不可少的,因此大家都要自觉承担纳税的义务。
非合作博弈:人类自私自利的本性
“选A还是选B”这个问题不仅让富有实战经验的商人们苦恼不堪,也同样折磨着商学院的天之骄子们。一位教授让自己班上的27名学生进行一个博弈游戏,这个博弈会把所有学生带入囚徒困境之中。
游戏规则如下:
假设每一个学生都是一家企业的老板,现在他必须决定自己选择A——代表着生产高质量的商品来维持较高价格,还是选择B——代表着生产假货以通过别人所失来换取自己所得。学生选择A可奖励2元,选择B可奖励2.15元。但选择A将产生总体收益:1个学生选择A,总体收益为2元;2个学生选择A,总体收益是4(2×2=4)元,依此类推……选择B将无总体收益可言。同时,将选择A的学生所产生的总体收益平均分给这27个学生。
这是教授事先设计好的一个博弈,以确保每个选择B的学生总比选择A的学生多得0.15元。这个假定也有其现实意义,因为生产质次的假货所付出的成本总比生产高质量的商品要低,反过来,其利润当然要高。
但是,选择B的人数越多,就意味着选择A的人数越少,则他们的总体收益就会越少,总体收益越少,平均分到每个人手中的收益就越少。这个假设也有道理,随着市场上充斥着的假货的增多,消费者便会逐渐地认清它们的面目,就会理性地不再购买它们,这就直接导致了假货生产者(游戏中指选择B的学生)利润的减少。而且,市场上出现的假货太多,市场秩序就会混乱,该产品的信誉就会降低,这也直接损害了高质量产品生产者(游戏中指选择A的学生)的利益。
假设27名学生都选择A,那么他们每人各得2元,且总体收益是54(2×27=54)元,将54元平均分配给27个学生,也是每人2(54÷27=2)元,则每个学生最后的实际所得为4(2+2=4)元。
假设有1个学生有了自私自利的打算,偷偷改变主意,选择B。那么,选择A的学生就有26名,每人各得2元,总体收益是52元(2×26=52),将52元平均分配给全班27个学生,每人各分得1.9(52÷27≈1.9)元,则选择A的学生最后的实际所得为3.9(2+1.9=3.9)元,比原来少得0.1元;而选择B的那个学生最后可得4.05(2.15+1.9=4.05)元,比原来多了0.05元。
假设有2个学生改变主意,改选B,则有25名学生选择A,每人各得2元,总体收益是50(2×25=50)元,将50元平均分配给27个学生,每人可分得1.85(50÷27≈1.85)元,则选择A的25名学生最后每人各得3.85(2+1.85=3.85)元;而选择B的那2个学生最后每人各得4(2.15+1.85=4)元。
假设有3个学生改选B,那么,选择A的学生就有24名,每人各得2元,总体收益是48(2×24=48)元,将48元平均分配给全班27个学生,每人可分得1.78(48÷27≈1.78)元,则选择A的学生每人各得3.78(2+1.78=3.78)元;而选择B的3个学生每人各得3.93(2.15+1.78=3.93)元。
……
假设全班27个学生为了尽可能地使自己的收益达到最大,一致选择自私的策略,统统选择B,则总体收益是0元,最后每个学生各得2.15元。
由以上分析可以看出,当只有1个学生选择B的时候,该学生能获得最大收益4.05元,其余26名学生相对会蒙受一点损失,只能获得3.9元。反过来,如果他们进行合作,协同行动,不惜将个人的收益减至最小,都选择A,则每个人都能获得最大收益4元。选择B的学生人数越多,每个人的最后收益越少。
演练这个博弈的时候,起初每个学生都被相互隔离开,不允许讨论,单独做选择。全班27名学生无疑都像囚徒困境中的嫌疑犯一样,都是聪明绝顶的理性人,个个精于算计,为了多获得0.05元,不约而同地都选择了B。
后来教授允许学生之间相互讨论,以便达成共识。结果同意合作而选择A的学生总数从3人到14人不等。在最后一次带有约束性协议的博弈里,只有4个学生愿意选择A。此时,全体学生的总收益是65.45[2×4+2.15×(27-4)+2×4=65.45]元,比全体学生成功合作可以得到的总收益108(2×27+2×27=108)元减少了42.55(108-65.45=42.55)元。
这个游戏也可以看作是非合作博弈的又一典型模式,并且比囚徒困境更深刻地揭示了人自私自利的本性。这一模式说明了这样一种情况——处于相同困境状态下,各方都不知道别人的选择,因而只能猜测每个人都是绝对的理性人,最后必将背叛其他人,从自己的利益出发,做出最有利于自己的选择。
处于困境中的人们与困境之间是一种不可逆转的关系,也就是说当他们无法通过自己的力量去左右局势,获得集体收益最大时,就只能在困境的局势下想办法尽可能让自己的损失最小,收益最大。
这个游戏在现实社会中也极具代表性。比如,某村有一块公共草地可供牧人放牧,每个牧民都清楚地知道增加自己养羊的数目,可以增加收入。但由于是共属大家的草地,没有人会去关心草地的承载极限,于是羊越来越多,草越来越少。最后草地空了,草没了,羊也没了。这是一个带有悲剧性的博弈过程。当出现类似情况的时候,就需要有外界力量对其进行干预,制定相应规则,从而使草地得到最合理的利用,大家才能真正得到实惠。
绩效考核的上下博弈
企业老板为促使员工之间互相竞争,努力工作,有时会故意在员工之间形成囚徒困境。为了形成这种激励员工卖力工作的囚徒困境,老板可以采取这一策略:奖励表现最好的员工,并淘汰未达工作标准的员工。假如员工都接受了这场博弈,那么他们就会兢兢业业地工作了。
假设某公司开发出一种新产品,并招聘了20个业务员来对它进行推销,此时作为公司老板的你,要如何决定每个业务员的工作量呢?由于这种产品过去在市场上从来没有出现过,所以你根本无法评估能干又勤奋的业务员每个月到底能卖多少产品。
解决的唯一办法就是根据相对绩效标准来评估每个业务员的表现,也就是拿他们的工作业绩进行相互比较,给予销售量高的业务员额外的奖励。此时,相对绩效评估标准将会使所有业务员陷入积极工作的囚徒困境之中。
以甲、乙两个业务员之间的博弈为例,甲、乙都可以选择每月工作20天或25天。虽然由于此项工作本身具有特殊性,跑外的业务员不比坐办公室上班的员工,老板无法准确判断业务员的实际工作时间,但是他们也不是全然就没有了管束,老板可以根据每月月底各个业务员的销售业绩,对他们这个月的工作状况进行逐一考核。一般情况下,每月工作25天的业务员推销出的产品会比每月工作20天的业务员要多。
对公司而言,只要两个业务员的工作时间一样,就会得到相同的评价。在这种情况下,两个业务员若要得到相同的评价,很可能会选择集体偷懒。因为每个人都偷懒时,大家的表现就会不相上下,显然会选择每月工作20天,而不会选择每月工作25天。当然,两个业务员都会失去成为业务精英的机会,但放弃这个机会而换取舒适的工作环境,也许是很值得的。
不过,老板针对此种情况而设计的囚徒困境却迫使他们不得不延长工作时间。假如甲每月工作20天,乙工作25天,乙就会得到高等的评价,获得奖励;要是甲每月工作25天,但乙每月只工作20天,那么乙将会受到老板的批评,饭碗可能就保不住了。所以对甲、乙来说,每月工作25天是他们的最佳选择。
虽然员工们都想轻松度日,在工作中偷懒,但当公司老板以相对评估标准来衡量员工工作业绩时,囚徒困境的形成就使得某一员工很难说服别人一起偷懒。退一步想,假如员工互相串通,集体偷懒,相对标准所形成的囚徒困境遭到瓦解,老板要怎么做才能激励员工努力工作呢?此时,就必须采取客观的绩效评估标准,把表现不佳的人毫不留情地开除。
签订合作协议:由婚姻想到的
严格的囚徒困境形成的前提条件是参与博弈的各方不可以进行合作,不能够制定有约束力的合作协议。但是在实际生活中,合作是社会文明的基础,这已得到先哲们的认可,哲学家卢梭不就写了《社会契约论》一书嘛,他就认为契约是整个人类社会存在的前提条件。联系实际生活,兴修水利、组织国防、创建企业等不都是因合作而实现的吗?
当然,我们现在所说的以签订协议的方式来走出囚徒困境是存在一定的限定条件的,即博弈必须重复若干次,至少多于一次。对于一次性博弈而言,签订协议是毫无意义的。
何谓重复博弈、一次性博弈?
以恋爱博弈为例,重复博弈是指男女双方在长期交往的过程中,随时都在进行着的博弈,因为相爱的过程中任何一个时点都是有可能分手的。无数爱情故事中的悲欢离合、起伏跌宕正是重复博弈的表现。而那种素不相识的男女,偶尔在酒吧中相遇,于是宾馆订房、玩乐一场,拂晓之后就分道扬镳的一夜情,就是典型的一次性博弈。
实际上,在重复型的囚徒困境中,签订合作协议并不是很困难,困难的是合作协议达成之后,是否对博弈各方具有很强的约束力,能够使得博弈参与者都不会有私自改变主意的行为。比如由爱情而引出的婚姻,俗话说“婚姻是爱情的坟墓”,但从博弈论的角度来看,婚姻恰恰是男女双方签订的一种具有一定约束力的协议,一旦某一方背叛婚姻,他就会受到家庭的压力与社会舆论的谴责。
现在,博弈论专家已经用数学知识证明,在无穷次重复博弈的情况下,合作是一种相对稳固的状态。因为任何一次背叛都会导致对方在下一轮博弈中进行报复,而双方都采取合作态度则会带来合作收益,两方都相安无事地处下去。
如何与对手达成合作?
在囚徒困境中,我们已经知道了这样一个道理:从个体的眼光看,决策目标是在与对手的一系列对局中尽可能地使自己的利益最大化。这使得博弈参与者会受到背叛总体利益的短期诱惑,总是想赢对方,结果可能得不偿失。因为对方也会全力反击,招致双方都难以全身而退,造成两败俱伤的局面。在这种情况下,即使双方都没有继续对抗下去的意愿,但开弓没有回头箭,他们也只能咬紧牙关,硬着头皮撑下去。但是与对方建立合作却可以使双方都得到更多的长期利益。
在陷入囚徒困境时应如何表现,才能尽可能地与对手达成合作呢?以下是对参与者的两个简单的建议:
◇不要嫉妒
在大多数博弈中,人们都习惯于考虑零和对局:一方赢,就预示着另一方必输。然而生活中的大多数对局都是非零和的,不是此消彼长的关系,而是双方都可以做得比较好或是比较差。双方达成合作是极有可能的,只是并不一定都能实现而已。
人们在很多情况下都倾向于采用相对标准,把对方的成功与自己的成功对立起来,认为对方成功了自己就一定失败。这种标准的直接后果就是会引发人的嫉妒,导致参与者企图用自己选择的策略抵消对方已经占有的优势。
在囚徒困境的模式下,抵消对方优势的唯一途径就是背叛。如此便会进入一个恶性循环的怪圈,一次背叛会导致更多的背叛和双方都受到惩罚的结局。可以说,嫉妒的出发点是自我保护,但其结果却是自我毁灭。
在任何一局非零和的博弈中,你没有必要非得比对方做得好。要求自己比对方做得好不是一个很好的目标,除非你想消灭对方。因为这个目标在大多数情况下是不可能或者说是很难实现的。尤其是当你要和许多不同的对手打交道时,就更不要去嫉妒对方的成功。因为在重复型囚徒困境中,其他人的成功是你成功的前提。
举一个大家都比较熟悉的例子。一家商店从供应商那儿购买商品,嫉妒供应商的利润是完全没有必要的。任何由嫉妒而引起的企图通过不按时付账等不合作行为来减少供应商利润的做法,都是对自己不利的鲁莽举动,都将激起供应商诸如拖延发货、不愿意打折扣或者不提供市场变化信息等的报复行为。商店就会为自己的嫉妒心理付出极大的代价。
◇不要首先背叛,耍小聪明
博弈论专家通过辩证法分析指出:只要对方有意合作,你也积极配合,促成合作,就会有好处。对方是否有合作意愿的最好的表现就是对方的出发点是否善良,是否不首先背叛。
当博弈一方从一些不善良的出发点行事时,他往往会使用相当复杂的方法来试探自己的这个出发点能否逃脱对方的惩罚。比如尝试在第一步背叛,如果第一步的结果显示对方进行报复的话,就马上撤回。或者是在背叛前等待十几步,看对方能否被哄骗或偶尔被占便宜。如果能的话,那就更频繁地、肆无忌惮地增加背叛的砝码,直到受到对方的反击再被迫撤回。
但需要指出的一点是,这些尝试背叛的策略表现得都不怎么好。因为背叛策略的实施者没有考虑自己的行为可能引起的对方的变化,事实上对方对你所采取的策略是有反应的,他将会把你的行为看作是你是否会同意合作的信号。你自己的行为会映射到你自己身上,自食其果,由此而导致的冲突的代价是很高的。
当然,你也可以尝试一种比较保险的方式,即先背叛对方直到对方提出合作,才开始合作。然而,这是一个理论上较保险,而实际上很有风险的策略,因为你最初的背叛可能引起对方的报复,使你处于要么被占便宜,要么彼此背叛、两败俱伤的两难境地。如你发现被对方报复了,再惩罚对方的报复,而对方再对你的惩罚进行报复……这种循环就会一直延续下去,后果可想而知。
有的参与者会耍一些小聪明,比如采取相当复杂的策略,以至于打乱对方的常规思维,让对方摸不准自己的思路而陷入不知所措的困境。当然,对方也会采取一个随机的策略,如果你给对方的感觉是无反应的,对方当然就猜不透你是如何想的,自然也感受不到来自你的促成合作的激励,也就不会去积极地促成合作。策略复杂到不可理解时是非常危险的。
“一报还一报”策略
现在,人们对博弈论的研究非常广泛,以至于有人形象地说:“最新的经济学和管理学都已经用博弈论的理论和工具重新写过了。”虽说有些夸张,但也绝非毫无根据,博弈论在现代生活中确实占了很大比重。博弈参与者有很多有趣且富于哲理的选择策略,适用于重复博弈的“一报还一报”就是其中之一。
“一报还一报”策略大致是这样的:它总是以合作开局,在第一步合作,但从此以后就采取“以其人之道,还治其人之身”的策略,采用对方上一步的选择。也就是说,“一报还一报”意味着在对方每背叛一次之后,自己就背叛一次,而永远不先背叛对方。
“一报还一报”是一种综合了善意性、宽容性、报复性、适应性和清晰性的合作策略,无论对于个人还是组织,其行为方式都有很大的指导意义。总的来说,它比竞赛中的其他策略都好。
◇“一报还一报”的善意性
“一报还一报”策略放弃了占他人便宜的可能性,永远不先背叛对方,永远不先把自己的利益建立在他人的损失之上。从这一特点来看,它是善意的。因为采用以占便宜为出发点的策略引发的问题是多种多样的。
首先,如果一个参与者用背叛来试探是否可以占他人的便宜,那么他就得冒被那些可能被激怒的规则遵守者报复的风险;其次,双方的报复一旦开始,就会陷入恶性循环之中,双方都很难全身而退。而“一报还一报”的这种善意性可防止博弈参与者陷入不必要的麻烦之中。
“一报还一报”的善意性使得其实施者从来不会在游戏中比对方少得太多好处。事实上,他也不可能比对方多得好处。因为这个策略总是让对方先背叛,这就注定了策略实施者的被背叛次数肯定比对方少或者和对方一样。所以“一报还一报”不是让实施者得到与对方一样多的好处,就是比对方略少。
“一报还一报”之所以会获得比其他任何策略更多的总体利益,就是因为它不是靠打击对方取胜,而是引导对方做出对双方都有好处的行为。
◇“一报还一报”的宽容性
“一报还一报”策略还给出了一个简单但又很有力量的建议:无论对方的选择是合作还是背叛,策略实施者都要给予回报。在下一轮博弈中对对手的前一次合作给予简单的回报,哪怕以前这个对手曾经背叛过自己。并且“一报还一报”总是在对方每次背叛之后只报复一次,这点足以说明其具有宽容性。它的这种宽容性有助于重新恢复合作。
◇“一报还一报”的报复性
“一报还一报”策略的运用者会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是具有报复性的。“一报还一报”从不先背叛对方,但是不管过去的关系如何好,它总能被对方的一次背叛激怒,而迅速做出反应,给予相同程度的报复行为。它的这种报复性使对方试着背叛一次之后就不敢再背叛,增大了转回合作的概率。
◇“一报还一报”的适应性
“一报还一报”能在众多的策略中独占鳌头,比其他任何策略表现得都好,足以说明它是一个很具适应性的策略。它不仅可与最初的各种策略相处得很好,而且能与那些未来可能在群体中占较大份额的成功策略相处得很好。它只会在与其他成功的策略相互交流时繁荣起来,而决不会毁坏自己已经得到的进一步改善状况的基础。任何想占“一报还一报”便宜的策略最终将伤害自己,屈服于“一报还一报”。
◇“一报还一报”的清晰性
“一报还一报”在竞赛中能够取得成功的另一个重要原因是它具有很强的清晰性,极易被对方理解,从而引出长期合作。策略实施者让对方清楚地意识到自己愿意合作是“一报还一报”成功的诀窍所在。当你选用“一报还一报”策略时,对方很容易理解你在干什么,接下来要干什么,是打算合作还是想要背叛,接着会根据你的反应而做出相应的回应。
在博弈过程中,你的任何一次背叛都容易被对方感受到,进而迫使对方采取一对一的报复。而你所做的任何一次促进合作的努力,对方也会在第一时间感受到。此时,对方能轻易地分析出应付你“一报还一报”的最好方式就是与你合作,互利互惠。当你遇到对方使用“一报还一报”策略时,也只有马上和他合作才是你最佳的选择,这样你将可以在下一步博弈中得到合作。
“一报还一报”策略的伟大胜利,对人类和其他生物的合作行为的形成具有深远意义。阿克塞尔罗德在《合作的进化》一书中指出:“‘一报还一报’策略能引发社会各个领域的合作,包括在最无指望的环境中的合作。”
举个最明显的例子,就是在第一次世界大战中“自己活,也让他人活”原则的产生。当时在前线的战壕里,军队纪律规定自己的士兵不准乱开枪杀人,希望促使对方也这么做。结果证明,这个原则得到了很好的实行,给了当时陷入困境数月的双方军队相互了解、相互适应的机会。
即使是“一报还一报”这种有效的破解囚徒困境的策略,也不是万能的,也难免会产生两败俱伤的危险。
首先,当“一报还一报”策略重复使用的时候,就会使博弈双方陷入循环报复的局面,致使任何一方都难以脱身;其次,由于“一报还一报”的核心是对对方的任何行为都要给予及时有效的回报,就是说当遭遇他人侵犯时也一定会“以牙还牙”,毫不妥协。
但须强调的一点是,这种策略的前提是“人不犯我,我不犯人”,这样可大大降低博弈参与者相互伤害的概率。总的来说,“一报还一报”策略还是利大于弊,目前应该算是破解囚徒困境的理想策略。