第3课囚徒困境：太精明有时就是自陷困境

字体:16 +-

假如你和你的同伴因为“犯罪”而进了监狱，警官对你们说，如果你们两人都不交代，将被分别判处半年，一个交代，另一人不交，则交代的人免受处罚，不交代的人将被重判为5年监禁，两人都坦白，将分别被判处2年。在两人不能相互沟通的情况下，这时你该怎么办？显然，两人都拒拱，是有利于群体利益的，但你保持沉默，你能相信你的同伴不会出卖你吗？

这就是囚徒困境，纳什通过这个案例告诉我们，个人利益的最大化并不等于群体利益的最大化。显然，合作、信任、威胁以及共同的利益大于个人的利益是走出囚徒困境的关键。

什么是囚徒困境

一、囚徒困境分析

有一天，一位富翁在家中被杀，家中财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，我们姑且称他们为囚徒A和囚徒B，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。检察官说：“如果你们两人都供认，每个人都将因抢劫罪加杀人罪被判处2年监禁，如果你们两人都拒供，则两个人都将分别判处半年监禁；如果一个人供认另一个拒供，则供认者被认为有立功表现而免受处罚，拒供者将因抢劫罪、杀人罪及抗拒从严而被重判为5年。

这个故事我们可以用一个图示来说明（见图3－1）。

囚徒B

拒供供认

0.5年，0.5年 5年，0年

0年，5年 2年，2年

拒供

囚徒A

供认

图3－1 囚徒困境

图中表示两个局中人具策略离散情形常用的一种表达博弈的工具。我们是这样解读的：最左边是局中人1（本例为囚徒A ），最上边是局中人2（本例为囚徒B）；左边的“拒供”、“供认”是局中人1的策略，上边的“拒供”、“供认”是局中人2的策略；四个单元格是双方策略组合的情况（本例中每人有2个策略，策略组合就有2×2=4个），每个单元格即一个策略组合；每个单元格中有两个数字，第1个数字代表局中人1（左边的囚徒A）的赢利，第2个数字代表局中人2（上边的囚徒B）的赢利。

从图3－1中可以发现，如果两个囚徒都拒供，则每个人判0.5年；如果两个囚徒都供认，则每个人判处2年。相比之下，两个囚徒都拒供将是一个比较好的选择。

但是，这个比较好的结果，实际上不太可能发生，因为两个囚徒权衡后会发现：

如果对方拒供，则自己供认便可以立即得到释放，而自己拒供将会判处半年，因此供认是较好的选择；

如果对方供认，则自己供认将被判处2年，而自己拒供则会被判处5年，因此供认是较好的选择；

无论对方拒供或供认，自己选择供认始终是最好的。

由于每个囚徒都发现供认是自己最好的选择，因此，博弈的稳定结果是两个囚徒都会选择供认。我们把这种稳定结果称为博弈的纳什均衡。

其实“囚徒困境”不允许囚徒A和B进行沟通的假设，与实际生活中大部分情况的现实是有差异的。例如，在爱情博弈中，很多恋人会经常花前月下、彻夜厮守；在企业的价格战中，企业之间也会多有沟通，价格；即使是20世纪下半世纪的美苏军备竞赛中，两个超级大国也会经常进行外交交谈，及时交换信息。

笔者不妨将条件放宽，允许囚徒A和B在审讯室里一起单独待上10分钟，然后再决定是否坦白。很明显，双方交流的主旨就是建立攻守同盟，克服自利心理，甚至可能订立一个口头协议，要求双方都不去坦白。然后，双方再单独被提审。我们不妨设想，囚徒A的心理，他一定会认为，如果囚徒B遵守约定的话，则自己坦白就可获得自由；如果囚徒B告密的话，若不坦白就会被终生囚禁。事实上，囚徒A的策略并没有因为简单的沟通或协议而摆脱两难境地。

恋人们在恋爱中的海誓山盟，最终还是分手；企业之间相互沟通信誓旦旦，价格战仍然会爆发；美苏两国经常会晤，甚至签订核不扩散条约，但军费一年高过一年。这些现象都反映了上面所说明的问题。

在更深刻的意义上，囚徒困境模型动摇了传统社会学、经济学理论基础，这是经济学的重大革命。

传统经济学的鼻祖亚当·斯密在其传世经典《国民财富的性质和原因的研究》中这样描述市场机制：“当个人在追求他自己的私利时，市场的看不见的手会导致最佳经济后果。” 这就是说，每个人的自利行为在“看不见的手”的指引下，追求自身利益最大化的同时也促进了社会公共利益的增长。即自利会带来互利。

传统经济学秉承了亚当·斯密的思想。传统经济学认为：人的经济行为的根本动机是自利，自私是个好东西，每个人都有权追求自己的利益，没有私有，社会就不会进步，现代社会的财富是建立在对每个人自利权利的保护上的。因此经济学不必担心人们参与竞争的动力，只需关注如何让每个求利者能够自由参与尽可能展开公平竞争的市场机制。只要市场机制公正，自然会增进社会福利。

但是囚徒困境的结果，恰恰表明个人理性不能通过市场导致社会福利的最优。每一个参与者可以相信市场所提供的一切条件，但无法确信其他参与者是否能与自己一样遵守市场规则。

二、从囚徒困境看“公共地”的过度使用

一块草地为一个村社所共有，村社的每个成员都可以在上面自由地放牧。这时，每个人都看到，尽量多地放牧对自己是有利的——如果别人不这样做，自己就占了便宜；如果别人也这样做，自己也不会吃亏。结果不难想象，过度放牧会毁掉这块草地，甚至使之变成不毛之地。

这就是公地的悲剧，即哈定悲剧。不难看出，悲剧的根源在于产权的不明确。如果草地为某人或某些人所有，他（他们）就会考虑如何长期有效地利用它，过度放牧就可以避免。这个理论最初由英国留学生哈定（GarritHadin）1968年在《科学》杂志上发表的文章《Tragedy of Commons》(公共策略)中提出。哈定指出：“在共享公有物的社会中，每个人，也就是所有人都追求各自的最大利益。这就是悲剧的所在。每个人都被锁定在一个迫使他在有限范围内无节制地增加牲畜的制度中。毁灭是所有人都奔向的目的地。因为在信奉公有物自由的社会当中，每个人均追求自身利益的最大化。公有物的自由性给所有人带来了毁灭。”

例如，市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而进入“纳什均衡”状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。

中国的经济社会发展与资源环境之间的关系更是印证了哈定的观点。中国的国家发展战略一波三折。20世纪50年代，我们学苏联，走的是低就业、低消费、高消耗、自我封闭的重工业模式。然而，这个模式并不符合中国人均资源短缺、资本稀缺、劳动力资源丰富的基本国情，再加上政治动**，走了一段就走不下去了，使我们延误了发展的黄金时期。80年代，我们又学欧美传统的发展模式，用资源高消耗和生活高消费来刺激经济高速增长，这一模式追求资本生产率与利润最大化而忽视资源利用率与环境损失。25年后，中国成了世界上最大的制造业国家，也成了世界上自然资产损耗最严重的国家。45种主要矿产15年后将剩下6种，5年以后60％以上的石油依赖进口，我们单位GDP的能耗是日本的7倍、美国的6倍、印度的2.8倍。单位GDP污染排放量是发达国家平均水平的十几倍，劳动生产率却是人家的几十分之一。新中国成立50多年来，我们的人口从6亿增长到了13亿，多了一倍，而可居住的土地由于水土流失从600多万平方公里减少到300多万，减少了一半。中国在人均GDP400～1000美元时，出现了发达国家人均GDP3000～10000美元期间出现的严重污染。按照目前的污染水平，若干年后我们的经济总量翻两番时，污染负荷也会跟着翻两番。

资源和环境作为公共自由物，是全体国民的公共财产，政府作为人民大众管理社会事务的工具责无旁贷的负有保护资源环境、实现经济社会自然协调发展的政治历史使命。针对不少政府官员和学者总是寄希望于通过技术手段来解决公共地悲剧问题，然而早在20世纪60～70年代在现代自然科学领域已经形成一种认识，那就是例如人口问题、核战争及环境污染等问题都只是一个局部问题，而这些是无法靠技术手段解决的。

要解决公共地悲剧，就必须要明晰公共地产权、牧民之间有效沟通形成共同愿景、采取违规行为之后的及时惩罚、牧民自身道德素质的提高、改善牛或者草的品种甚至是牧民也可以换个职业等都是可行的方法。这些解决方法对我国建设节约型社会也有很大的启发，例如，增加资源环境危机的宣传和教育以形成大众心理暗示，对公共自由物中的不可再生资源采用国家管理的形式，严格控制使用；对可再生资源采取委托管理的形式，培育社会力量加以保护，国家起到监督和引导作用等。

生活中的囚徒困境

一、企业间的价格战

价格战是市场竞争中一个普遍的现象。上网搜索，就可以发现家电、手机、空调、飞机票……无不充满价格战。我们以彩电业的价格战为例，说说其中的囚徒困境。

自20世纪90年代中期以来，彩电行业竞争加剧，价格战烽烟四起。由于彩电行业是寡头控制，最大的9家彩电厂商占据了70％的彩电市场，在这样的市场上，博弈互动的特征就更加突出。1999年4月，长虹为扩大市场突然宣布彩电降价，这给彩电业带来了巨大震动。随即，康佳、TCL、创维达成默契：建立彩电联盟。直到4月20日下午，康佳仍表示不降价，但当晚康佳突然改变主意，搞得TCL、创维措手不及。4月24日，本来三方准备坐下来商讨降价后的进一步策略，结果又是康佳爽约，于是价格战立即蔓延开来。但是，大家都降价对于扩大各自的市场其实并无多大帮助，这反而削减了各自的利润——这是有事实为证的：1996—2000年，彩电行业连续发生8次降价战斗，信息产业部统计资料显示，中国彩电行业进入全面亏损。信息产业部有关官员透露，彩电价格战使国家损失147亿元。

价格战于人于己都不利，但为什么彩电厂商还在打价格战呢？我们可以建立一个简单的囚徒困境博弈来加以解释。

假设彩电市场有两个寡头，现在面临降价与不降价的选择。甲降价而乙不降价，甲扩大了市场，赢利增加80单位，乙市场缩小，赢利增加－100单位；反之，乙降价而甲不降价，则乙增加80单位，甲增加－l00单位。倘若都降价，则各增加－50单位；都不降价，则都保持原来的销售利润，增加利润为0。整个选择及其结果可以如图3－2来表示。

企业乙

不降价降价

0，0 －100，80

80，－100 －50，－50

不降价

企业甲

降价

图3－2 彩电业的价格战

显然，从双方最好的结果来看，就是都“不降价”。但如同囚徒困境一样，“降价”是每个企业的优势策略：给定对方不降价，我最好降价(不降价得到0，降价得80)；给定对方降价，我更得降价(不降价得－100，降价得－50）。

当然，大家可能还会想，企业之间是否可以进行某种联合来维持价格不降呢？真实的情况是，2000年6月9日，TCL、海信、创维、厦华、乐华、金星、熊猫、西湖等8家彩电企业歃血结盟，召开了第一次具有“垄断”意味的彩电联盟峰会，实际上就是一个价格联盟。结果到联盟生效之日时，大多数彩电商家仍然保持降价，联盟成为一纸空文。当年8月，康佳响应长虹在全国范围降价20％，撕毁本无约束力的联盟协议，价格联盟宣告破产。直到现在，我们还经常可以看到彩电价格战的影子。

二、军备竞赛

冷战时期，美国和苏联大搞军备竞赛，双方都在军备支出方面投入了大量资金。如果双方都不增加军费支出，则双方的相对安全状况并没有变化，这样可用更多的资金投入经济建设。因此，都不搞军备竞赛对双方都有利。

从图3—3可以发现，博弈的结果将是双方都不断增加军费。因为，给定对方不搞军备竞赛，则自己搞军备竞赛将可以使自己相对安全并使对手陷入危险；如果对方搞军备竞赛，则自己更要搞军备竞赛才不至于使自己的处境相对危险。结果，搞军备竞赛实际上是各个国家的优势策略，大家都搞军备竞赛是优势策略均衡。

苏联

军备竞赛不竞赛

正常，正常安全，危险

危险，安全正常，正常

军备竞赛

美国

不竞赛

图3—3 大国军备竞赛博弈

囚徒困境下的利益至上原则

一、人类的自私是一把双刃剑

为什么会有囚徒困境的产生呢，这很大程度上是因为人的自私性，即做事情只考虑自己的利益，而很少考虑别人的利益。经济学上把这种自私的人称为“理性的人”，他们由这个“理性的人”可以推出很多让我惊奇的结论。亚当·斯密就从“理性的人”出发，推出了市场那双“看不见的手”，认为只要制定完善的市场经济制度，每个人在这个游戏规则下去追求自身利益的最大化，就能促进社会的发展。而纳什却根据“囚徒困境”说明市场不是万能的，在适当的时候，应加强政府的干预。

当然，合理利用人的自私性，确实可以促进整个社会或组织效率的提高，这正像嫉妒心一样，一个人只要拥有适当的嫉妒心，对他是有好处的，因为在嫉妒心的驱使下人们会想着去追赶别人，在合理的制度下（即人们不能通过非法途径致富），人们会选择更加努力去工作。

我们假设一个工厂有A、B两个员工，由于工厂对工作努力者没有什么奖励制度，于是这两个员工都不努力工作，他们总是干干停停，工厂为了提高工作效率，决定对工作努力者进行奖励，如果两人不能进行信息沟通，不能达成协议的话，在利益的驱动下，两个人都会努力工作，从而提高整个厂的工作效率。

奖励在多人之间的博弈中，是非常有效的，因为在多人之间的博弈中，人们是很难达成这样的协议的，即大家都不努力工作，这样总有一部分人会得到奖金，然后，那一部分拿了奖金的人与那些没拿奖金的人进行分配。这样，只要大家达成这样的协议，那么吃亏的就是老板了，因为工厂效率没提高，老板反而还付出了一笔奖金。但在现实生活中，这种协议是很难达成的。

在双人博弈中，这种协议却很容易达成。比如，上级为了在两名员工之间提拔一名当科长，并对两人许诺，只要你们两个谁工作最卖力，我就提拔谁。两个人如果在能力相当的情况下，都拼命地工作，那么两获得提拔的概率是1/2，但他们却要为此付出辛勤的劳动。但如果他们都不努力工作，获得提拔的概率也是1/2，既然如此，他们为什么不达成这样的协议，即两人都不努力工作，只要一个人提拔后就给另一个好处。这样只要提拔后当科长的好处，与那个未当科长，而对方给予他的好处相当，那么两人是很容易达成协议的，何况这样还免去了工作努力的劳累。

那么上级如何来对付这样的协议呢，答案就是隐性歧视。很显然，显性歧视（如性别歧视）是一些国家法律所不容的，而得不到推广，而隐性歧视具有很强的隐蔽性，且不会触犯国家法律。如上级内定一个员工晋升，这个员工自己知道而另外一个员工不知道。这样，被偏爱的员工知道自己获胜的概率会大于1/2，因此如果要合谋，他就会要求大于1：1的比率，而被歧视的员工（因为歧视是隐性的），他产不知道自己获胜的概率小于1/2，他仍会要求按1：1的比率分得利益，这样，最后双方就不可能达成合谋协议——因为双方要求利益之总和小于合谋利益的总和。可能有读者会问，如果那个被偏爱的员工告诉被歧视的员工，自己是内定人先，那么岂不会导致被歧视的员工不努力，而被偏爱的员工只要稍微努力就够了吗？对这个问题的回答是，一般来说这样的情况并不会发生，一是因为被偏爱的员工一般并不愿意透露自己是依靠某种不正当的关系照顾上去的，他们更希望别人认为他是凭能力晋升的；另一方面，一个员工向另一个员工说自己是内定的，另一个员工会简单地相信吗？他会认为对手不管是不是内定对象都总是有动力说自己是内定的来诱导他放弃努力，那么他的策略最好是不要相信。此外，现实中隐性歧视可以做得更复杂微妙，例如，上级把两个下属分别在不同时间叫到办公室，跟他们讲了这样一段话：“小×啊，你要努力呀，你们两个候选人中，我是比较看好你的，同等条件下，我一定建议领导班子首先考虑提拔你，你不要辜负我的期望。”结果，两个员工对取胜的主观概率都超过了1/2，合谋便不能达成，而上级所需要的两个人的最优努力水平也就实现了。

二、从旅行者困境看人类的自私心

很多历史和现实中的故事告诉我们，失败不是因为我们太傻，而是因为我们太聪明。正如《红楼梦》中的王熙凤一样，她是精明的，在贾府她时时刻刻都在算计着，但正是因为她的算计，反而加速了贾家这座破败大厦的崩塌，而她自己也同归于尽。曹雪芹给她的评语是“机关算尽太聪明，反算了卿卿性命。”聪明反被聪明误啊！

话说有两个旅行者从一个出产细瓷花瓶的地方回来，都买了花瓶。可是提取行李的时候发现花瓶摔坏了。于是，他们向航空公司索赔。航空公司知道花瓶的价格总在八九十元上下浮动，但是不知道两位旅客买的确切价格是多少，于是，航空公司请两位旅客在100元以内自己写下花瓶的价格。如果两人写的一样，航空公司将认为他们讲的是真话，并按照他们写的数额赔偿;如果两人写的不一样，航空公司就论定写得低的旅客讲的是真话，并且照这个低的价格赔偿,但是对讲真话的旅客奖励2元钱，对讲假话的旅客罚款2元。

为了获取最大赔偿，甲乙两位旅客最好的策略是都写100元，这样两人都能获赔100元。

可是甲很聪明，他想，如果我少写1元变成99元，而乙会写100元，这样我将得到101元。何乐而不为呢？所以他准备写99元。可是乙更加聪明，他算计到甲要算计自己而写99元，“人不犯我，我不犯人，人若犯我，我必犯人。”于是他准备写98元。想不到甲又聪明一层，算计出乙要这样写98元来坑他，“来而不往非礼也”,他准备写97元……

下棋的时候，不是说要多“看”几步嘛？看得越远，胜算越大。而在花瓶索赔的例子中,如果两个人都“彻底理性”，都能看透十几步甚至几十步，上百步。那么上面那样“精明比赛”的结果最后将落到什么田地？事实上，在彻底理性的假设之下这个博弈唯一的纳什均衡，是两位旅客都写0。

该博弈是1994年由考希克·巴苏教授（Kaushik Basu）提出的，尽管现实中不可鞥出现这样的纳什均衡，但是它启示着人们在为私利考虑的时候不要太精明，因为精明不等于高明，太精明往往会坏事。

巧设囚徒困境，为自己服务

一、从一个历史故事开始

春秋时楚国杰出的军事家、政治家伍子胥，性格十分刚强，青少年时即好文习武，勇而多谋。伍子胥祖父伍举、父亲伍奢和兄长伍尚都是楚国忠臣。周景王二十三年，楚平王怀疑太子“外交诸侯，将入为乱”，于是迁怒于太子太傅伍奢，将伍奢和伍尚骗到郢都杀害，伍子胥只身逃往吴国。

在逃亡途中，伍子胥在边境上被守关的斥候抓住了。斥候对他说：“你是逃犯，我必须将你抓去面见楚王！”

伍子胥说：“楚王确实正在抓我。但是你知道楚王为什么要抓我吗？”

斥候冷冷地说：“我没必要知道，你是逃犯，我就可以抓你去受功领赏。”

伍子胥从容自若地说：“不，你需要知道。因为有人跟楚王告密，说我有一颗价值连城的宝珠。楚王一心想得到我的宝珠，可我的宝珠已经丢失了。楚王不相信，以为我在欺骗他。我没有办法了，只好逃跑。”斥候冷笑说：“宝珠丢了，至少我还抓住了人，我想楚王还是有奖赏的。”

伍子胥摇头说：“这，你又错了，现在你抓住了我，还要把我交给楚王，那我将在楚王面前说是你夺去了我的宝珠，并吞到肚子里去了。楚王为了得到宝珠就一定会先把你杀掉，并且还会剖开你的肚子，把你的肠子一寸一寸地剪断来寻找宝珠。这样我活不成，而你会死得更惨。”

斥候信以为真，非常恐惧，觉得没必要以命相搏去换取那一丁点的奖赏，于是赶紧把伍子胥放了。伍子胥终于脱险，逃出了楚国。

这个故事可以算作是对囚徒困境的一个精彩注解，我们这里假设伍子胥被抓后将被杀头获得－5的收益，斥候被伍子胥诬陷将被剖腹也是－5的收益，斥候释放伍子胥，双方都得不到任何收益为0，斥候获得楚王的奖赏将获得5的收益，伍子胥巧妙地在自己和斥候之间设了一个囚徒困境。我们可以用如下图示来表示（见图3－4）。

斥候

押送释放

－5，－5 ×，0

－5，5 0，0

诬陷

伍子胥

不诬陷

图3－4 伍子胥和斥候的博弈收益矩阵

在这里，斥候只要一放了伍子胥，他是不可能诬陷斥候的，所以用叉号表示。由于伍子胥一口咬定，只要斥候押送他，他就诬陷，所以这个矩阵又变形为如下图示（见图3－2）。

斥候

押送释放

－10，－10 ×，0

伍子胥诬陷

图3－3 伍子胥和斥候的最终博弈收益矩阵

这时，斥候要么把伍子胥押送，双方各获得－5的收益，要么把伍子胥释放，自己收益为0，但免去了伍子胥的诬陷。两害相衡取其轻，每个明智的人都会选择释放。其实，这也是信息不对称下的博弈，伍子胥知道斥候的信息，但斥候不知道伍子胥的信息，即楚王抓伍子胥并不是为了获得什么宝珠，其真实目的是为了斩草除根。

从囚徒困境，看历史上的昏君

历史上有很多昏君，但他们都是昏庸无能的昏君吗，我看不见得，有些昏君表面上看是在亲小人，远贤臣，但他们实际上是借小人之手来牵制贤臣的独裁，在贤臣与小人之间制造一个囚徒困境，使他们诚诚恳恳地为君王服务，一旦一些贤臣的权力过大，君王无法用囚徒困境来制衡他的权力时，出现了功高盖主的情形，那么，贤臣的杀身之祸也就来临了。刘邦杀韩信、勾践杀文种，都是因为这些贤臣功高盖主。

分而治之的思想体现在国家政权的控制者为保住政权而采取的行动上。

历史剧《大脚马皇后》中有一段情节，说的是——朱元璋初定天下，根基尚浅，而朝中已分化成以刘伯温和马皇后为代表的江浙派，以及以李善长和胡惟庸为代表的淮西派。马皇后建议朱元璋亲刘伯温而疏胡惟庸，而朱元璋的回答是：他当然知道两人不和，而且他也知道胡惟庸只擅长溜须拍马，但是他之所以不疏远胡惟庸是因为胡可以牵制刘伯温，否则以刘伯温之盖世高功，没有掣肘恐将来不易管理。所以，他就是要利用两人不和来控制局面。

这是一种典型的分而治之的思想。在历史上，我们曾看到许多的昏君，他们亲小人、远贤臣。他们真的是非常昏庸吗？也许，其中确有一些傻瓜型的昏庸者。但是，大多数的昏君也许都是理性的昏君。贤臣往往建功立业，深得人心。然而一个深得人心的人，在缺乏民主基础的社会中，很可能成为王权的挑战者，甚至是皇帝的替代者。因此，在位的皇帝不得不亲小人，一小人之力量掣肘贤臣。除非，皇帝本人就是功高盖世、深孚众望之辈，他就不必惧怕任何贤臣的挑战，因此他也就可以少去亲小人。如果皇帝本人并无太大功绩，那么他就可能压不住功臣的光环，为了平衡力量他不得不亲小人。所以，我们在整个中国历史上都可以发现，开国皇帝或者扩疆辟土而武功显赫的皇帝一般认为是比较英明的，那是因为他本人就是最大功臣，无所畏惧来自臣子的挑战，因此也少亲小人；而不少仅仅依靠继承王位获得政权但在政治、经济军事上难有作为的皇帝，常常会表现出更多的昏庸一面，那是因为他时时面临竞争者的挑战，而不得不随时平衡忠奸的力量以确保自己的位置。他有时甚至会有意让朝廷分裂成几个派系，让派系斗争来消耗各方的力量，以降低王位所受到挑战的压力。

笔者相信，这样的解释是有其道理的。因为复旦大学一篇博士论文中写道：“当我们告诉君主某个大臣有异心或有很大的私人军事力量，或者某个地方有什么刁民聚集了数千信徒时，我们可以发现君主从来都是做出最快的反应，没有任何的昏君迹象。”这篇论文甚至还指出，皇帝一般更担心官僚和功臣造反，反而不大担心老百姓造反。一方面固然是因为信息的原因——官僚人数少，比较容易监控谁更可能造反，而老百姓人数众多，不太容易监控谁会造反；但另一方面，原因在于官僚往往有更多的造反的初始财富——他们有更多的钱来作为谋反的基金，有声望的官僚更能集合起造反的队伍，经过沙场的将军更知道如何打仗——而老百姓在造反的初始财富方面显然要低得多，即使他们想集合一支队伍也不是易事。

朱元璋显然深知上述道理。他很清楚自己稳坐江山是因为自己威震海内，而他的儿子孙子们可就没有这么大的能力和威严。因此，为了防止自己的儿子孙子的帝位受到挑战，他曾洪武13年和洪武26年两次大开杀戒，开国功臣几乎无一幸免，被杀者超过三万人。尽管他这一招去奠定了明朝朝廷的安全。但是，他仍然没法避免老百姓揭竿而起，最终断送了明王朝。

三、囚徒困境，压低供应商价格

王博是一家电脑制造企业的采购员，由于本公司要组装1000台电脑投入市场，公司派王博去采购1000个同样的电脑配件，假设每个配件的生产成本为6元，如果小分别向两家供应商各订购500个配件，那么每个供应商就会把价格定在10元，从而每个供应商将获利 500×（10－6）=2000元，而小王的支出将是1000×10=10000元。但这显然不符合公司的低成本采购原则，于是王博设了这样一个“囚徒困境”，从而给自己带来了好处，他的政策是这样的：

如果价格在10元，则向两家供应商各订购500个；

如果一家把价格降到8.5元，而另一家保持在10元，则1000个订购全部给低价的供应商；

如果两家都把价格降到8.5元，则仍向两家各自订购500只。

这样的情况下，简单计算可以发现，如果两个供应商都不降价，则各自获利500×（10－6）=2000元；如果都降价，则各自获利500×（8.5－6）=1250元；如果一个降价一个不降价，那么降价者获得1000×（8.5－6）=2500元，而不降价者将得0元。这就在两个供应商中造成了囚徒困境，如图3—3所示。

供应商B

8.5 元 10元

1250，1250 2500，0

0，2500 2000，2000

8.5元

供应商A

10 元

图3－4 应商的囚徒困境

从图3－4 我们不难发现，两家供应商都选择8.5 元就是纳什均衡了。而此时，小王付出的总订购成本又是多少呢？即是，1000×8.5 =8500元，节约了1500元。

当然，我们必须说明的是，这样的机制只有在非重复博弈情况下有用，尤其是当你告诉供应商这笔合同只有一次的时候，每个供应商迫不及待为了抓住仅有的一次机会，而不得不就范。

如何走出囚徒困境

一、一报还一报的报复措施

我们还是以“囚徒困境”中的两个囚徒为例，假如两个囚徒在事前就答成了有关盟约，即双方都不招供，一方如果招供，另一方就可以对其进行严厉的报复。这样，招供的囚徒由于担心未来的报复而会选择拒供，这样使得“拒供，拒供”成为均衡的结果。合作就很容易达成。

囚徒之间的报复使我们得出了一个启示，只要对囚徒不合作行为的惩罚是足够强的，那么就可以使囚徒和行动走到合作的轨道上来。

上述问题可简称为“一报还一报”策略，是由密歇根大学政治学家罗伯特·阿克塞尔罗德（Robert Axelrod）提出来的。

20世纪80年代，他写信给不同学科的学者，让他们提供自以为最佳的行为规则，然后编成电脑程序，相互竞赛。第一场锦标赛，他共收到14个程序，在捉对厮杀中，程序运转了十多万次，最后按照总得分排出名次。胜出的程序，竟是其中最简单明了的“一报还一报”（Tit for Tat）。

“一报还一报”是人类最古老的行为规则之一。它要求我们最初总以善意待人，在没有被欺骗之前，永远不要主动欺骗他人；但一旦发现他人的欺骗，下次交往时要毫不犹豫地报复、惩罚；惩罚过后，又回到起点，继续善意待人。这种行为规则中，永远只需记忆最近一次的对方行为，宽容看待对方的过往行为，除了上一次背叛。

很快，阿克塞尔罗德又组织了第二场锦标赛。这次他收到了62个程序，其中还有不少程序针对“一报还一报”做了专门改进。一场混战的结果是，“一报还一报”再次排名第一。

这两次锦标赛充分证明了“一报还一报”策略的威力。阿克塞尔罗德后来曾公开征集可能打败它的策略程序，但20多年过去，还没有程序能做到这一点。阿氏把“一报还一报”所体现的精神归纳为“KISS”（Keep It Simple，Stupid）原则，即尽可能简单、愚蠢。简单到可以用一句话概括，又愚蠢到不记忆对手的历史行为，正应了“大智若愚”的中国老话。

我们可以把“一报还一报”策略归纳为以下五点。

首先要保持善良。即坚持不首先背叛对方，开始总是以善意的态度选择合作，而不是一开始就选择背叛或主动作弊。

其次是可激怒性。即如果对方出现背叛行动，它能够及时识别并一定要采取背叛的行动来报复，不会让背叛者逍遥法外。

第三，是具有宽容心。它不会因为别人一次背叛，长时间怀恨在心或者没没完没了地报复，而是在对方改过自新、重新回到合作轨道时，能既往不咎地恢复合作。

第四，简单性。它的逻辑思维清晰，易于识别，能让对方在较短的时间内辨别其策略所在。即观点鲜明，当对方选择背叛时，他就会报复，让对方明白背叛的后果。

第五，不生妒忌心。它不耍小聪明，不占对方便宜，不在任何双边关系中争强好胜。人们往往习惯于考虑零和博弈，倾向于采取相对的标准，常常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒，企图抵消对方已经得到的优势。在囚徒困境下，抵消对方优势只能通过背叛的方式来实现，但是背叛会召至更多的背叛及对方的惩罚。因此嫉妒就是自我毁灭。

建立长期的关系和多次重复博弈

赵阿姨家就住在市场附近，她准备帮女儿卖双高跟鞋，因为女儿身材矮，明天又要去相亲，所以赵阿姨想卖一双高跟鞋，让女儿显得更高一些。但女儿虽然身材矮，但她平时却不喜欢穿高跟鞋。赵阿姨就想，反正卖一双，她也穿不了几天，就捡最便宜的卖吧。于是，赵阿姨就一家店铺里挑了一双20多元的高跟鞋，她也知道这鞋质量不是很好，但能应付几天就行了。于是就卖了回去。女儿约会完回家后就开始抱怨，说妈卖了一双什么鞋，穿这鞋跟对象还没走几步，鞋根就断了，害得我在对象面前出了洋相。

赵阿姨心想，这还得了，竟然坑到我头上来了。一双鞋质量再不好，也能穿半个月的，怎么能一天也穿不到呢。于是赵阿姨跑去和卖鞋的人理论，说什么，你街头门市的人也敢坑，你还想不想我们到你这里卖东西。卖鞋的见赵阿姨家就住家市场附近。心想，她原来是住在附近的人，我们的生意还靠他们照顾呢，要是一个乡下人进城的倒也算了，反正他们进一趟城也不容易，都是一锤子买卖，坑了他们，他们也拿我没辙。于是便说，我们卖的鞋一般是不退的，我看你是附近的人，就给你退了吧。

这个故事就体现了一次性博弈不容易达成协议，而多次性重复博弈容易达成协议。前面已经分析过，如果囚徒困境只是一次性的博弈，那么签订协议是毫无意义的，其纳什均衡点并不会改变。可是签订协议的一个最基本的条件，就是博弈需要重复若干次地进行，当然至少大于一次。就恋爱博弈来看，男女双方在交往的过程，随时都在博弈，因为相爱的过程中任何一个时点都是有可能分手的。用博弈论的术语来说，这是一种囚徒困境的重复博弈。无数爱情故事中的悲欢离合、精彩跌宕正是这个博弈模型的表现。

我们在这里要注意的是，重复博弈与我们前面所提及一般性的动态博弈是不同的。多轮动态博弈中，参与者能够了解到博弈中的每一步其他参与者的在自己选择某种策略下的行动，而重复博弈的参与者无法了解到在任何一个步中，其他参与者的策略选择。

囚徒困境一旦从一次性博弈转变为重复博弈，情况会发生非常大的改化，博弈的结局也就是纳什均衡点可能会完全不同。举个最简单的例子，大家都知道国外的黑手党组织严密，对待背叛者的惩罚非常残忍。一个黑手党成员告发别的黑手党成员，一定会被组织谋杀。我们假设前面的囚徒困境故事发生在国外，囚犯A和B都是黑手党成员。他们很可能宁愿被判处终生囚禁，也不愿意出狱之后被同伙干掉。

实际上，在重复型的囚徒困境中，并不是签订合作协议很困难，困难的是这个协议对博弈各方是否具有很强的约束力。一个合作契约建立的困难在于任何协议签订之后，博弈参与者都有作弊的动机，因为至少在作弊的这一局博弈中，作弊者可以得到更大的收益。还是用爱情来打比方，常言道：“婚姻是走向爱情的坟墓”，但从博弈论的角度来看，婚姻恰恰是男女双方签订的一种协议，具有一定约束力的协议，因为一旦对方背叛婚姻，就会受到家庭的压力与社会舆论的谴责。

在博弈理论中，博弈专家已经用数学证明出，在无限次重复博弈的情况下，合作可能是最稳固的。如果博弈无穷多次，那么双方就会逐渐从互相背叛走向互相合作。因为任何一次背叛都会招致对方在下一次博弈时的报复；而双方都取合作态度会带来合作收益。

三、制定带剑的合约

西方哲学家卢梭说过，“究竟是什么不可思议的艺术，使人类找到一种法，通过强迫人们服从，从而使他们获得自由？”

其中最著名的一个答案是由托马斯·霍布斯给出的。霍布斯是现代英国君主立宪政体的理论奠基人，其代表作是政治学名著《利维坦》（Leviathan）。所谓“利维坦”，是《圣经》中的一种力大无穷的巨兽名字的音译，在书中意指一个强大的国家。霍布斯说：“人的自然本性是自私自利、恐惧、贪婪、残暴无情，人对人互相防范、敌对、争战不已，像狼和狼一样处于可怕的自然状态中。于是出于人的理性，人们相互间同意订立契约，放弃各人的自然权利，把它托付给某一个人或一个由多人组成的集体（如议会、董事会、法院等），这个人或集体能把大家的意志化为一个意志，能把大家的人格统一为一个人格；大家都服从他的意志，服从他的判断。这个人或这个集体就是主权者，而像这样通过社会契约而统一在一个人格之中的一群人就组成了国家。这就是伟大的利维坦的诞生，用更尊敬的方式来说，这就是活的上帝的诞生。”按照他的观点，没有集权的合作是不可能产生的。因此，一个有力的政府是必要的。

霍布斯对合作协议的观点是：“不带剑的契约不过是一纸空文。它毫无力量去保障一个人的安全。”这就是说，没有权威的协议并不是导致民主，而是导致无政府状态。最后，霍布斯总结道，“在一切政体中，最坏的政体并不是专制而是无政府状态。”

霍布斯的观点虽然很偏激，但却不无道理。根据博弈论的观点，无论是一次性或有限多次的重复博弈，“囚徒困境”产生这种结局的原因是两个囚犯都基于自身利益的角度考虑，这最终导致合作协议无法稳定遵守。

实际上，决定合作协议是否能够被囚徒双方执行的最关键的基本要素有两个，即承诺与威胁。所谓承诺，在囚徒困境中就是囚徒向对方相互许诺，在下一次博弈时会采取让对方有利的行为，也就是不坦白与对方合作；所谓威胁，就是某个囚徒告知对方如果下一次博弈时其采取招供策略而不合作，在下下一次博弈时就会采取不利于对方的策略即招供。

其实，在社会生活中，承诺与威胁是非常常见的现象。比如女生告诉她男朋友，如果他敢结交其他的女生，只要被发现一次，就立刻分手，这是威胁；而她男朋友向她发誓绝对自己是个专一的情圣，决不会背叛爱情，这就是承诺。再比如，在外交中，美国经常向中国承诺只承认一个中国的原则，我国政府向国际社会承诺中国强大也决不会采用霸权政策。大家常见的很多耳熟目详的俗语都是承诺与威胁，比如“人不犯我，我不犯人”、“坦白从宽，抗拒从严”、“以眼还眼，以牙还牙”等。

合作的关键是承诺与威胁的可信度有多大。因为承诺与威胁都是在博弈者进行策略选择之前作出的，假如承诺与威胁对博弈者的约束力很小，那么合作的可能性就越小。设想一个可信度很小的承诺与威胁，例如，参加考试的学生向监考老师承诺在没有老师监考的时候决不会作弊，不难想象考场中将会是什么样的一种景象，学生并不都是道德高尚、具有很强自制能力的人。即使在有老师监督考场，并威胁如果有学生敢于顶风作案，必然严惩不贷，比如考卷直接判零分。设想一下，如果这种威胁仅仅是威胁，在学生作弊后并未真的采取什么严惩的行动，那么学生作弊的风险非常小，考场纪律依然与没有老师一样。由此可见，监考老师在一定程度上不得不要做一个霍布斯所说的“利维坦”式的专制者。

所以，不带剑的契约不过是一纸空文，它没有任何力量可以保证一个人的安全。在现实社会中，带剑的合同往往是通过第三方来实现的，如法律，交纳保证金等。

四、培养组织内部的忠诚文化

在两军对垒，一方发出冲锋号时，我们很少看见有退缩在后方故意不向前冲锋的人。按照博弈论的观点，在一场战争中，冲在最前面的人往往是最容易牺牲的，那么相对的落后就不那么危险了，而且是因为是相对落后，这很难判断有临阵逃脱的嫌疑，因此军法在这里也是用不上的。那么当冲锋号响起的时候，为什么有那么多的士兵奋不顾身地往前冲呢。答案就是在部队内部已通过严厉的训练培养了士兵很高的忠诚度。

有人曾说过，在忠诚下不相信博弈。的确当两个囚徒相互信用并忠诚自己的组织时，他们是很可能双双做出拒供的选择的。在这现实生活中，也能找出很多这样的例子，如一些犯罪成员或黑社会成员在警察局拒不坦白是因为他们要讲“江湖义气”。这种“江湖义气”就是一种对同伴的忠诚文化。

钟仪的故事想必大家都听说过。

钟仪，本是春秋时楚人，是有史书记载的最早的古琴演奏家，世代都是宫廷琴师。春秋楚、郑交战的时候，楚国钟仪被郑国俘虏，献给了晋国。

晋成公9年(约公元前582年)去世，晋景公继位，到军中视察，遇见了他，晋景公问：“那个被绑着、戴着楚国帽子的人是谁？”钟仪说：“楚国的俘虏。”景公又问：“你姓什么？”钟仪说：“我父亲是楚国的琴臣。”景公就命令手下的人松绑了钟仪，给他一张琴，命他演奏，他弹奏的都是南方楚调。景公又问：“楚王是一个怎样的人？”钟仪说：“王做太子的时候，有太师教导他，太监伺候他。清早起来以后，像小孩子一样玩耍；晚上睡觉。其他的我不知道。”范文子对景公说：“这个楚国俘虏真是了不起的君子呀。他不说自己的姓名而说他父亲，这是不忘本；弹琴只弹楚国的音乐，这是不忘旧；问他君王的情况，他只说楚王小时候的事，这是无私；只说父亲是楚臣，这是表示对楚王的尊重。不忘本是仁，不忘旧是信，无私是忠，尊君是敬。他有这四德，给他的大任务必定能办得很好。”于是晋景公以对外国使臣的礼待他，为了促进两国和好，叫他回楚国谈判和平。钟仪便被称为四德公，其后世以其为祭祀祖宗的堂号。

这就是一个对组织的忠诚，如让钟仪陷入囚徒困境中是很难做出坦白的表示的。事实上，在很多组织中，团体产生所面临的囚徒困境问题的轻重程度是很不相同的。这种差异的根本来源就是各个组织有不同的文化，有些组织比其他组织更倾向于合作行为。我们对组织好何克服囚徒困境的建议就是培育忠诚文化。

五、用人与人之间的道德关系来克服囚徒困境

用带剑（法律、保证金）的合同来保证合约的执行当然是有效的，但往往也导致了成本过高，有没有其他更廉价的方法来保证呢？我们回答是肯定的，除了法律或强力之外，还有处理人际关系的道德。亚当·斯密曾说过：最商业化的社会，也是最讲究道德的社会。

人类道德的产生一般有两种解释：一种是纯文化因素在起作用，有些国家道德程度高，有些国家则低。如北欧人之间的道德感高于意大利人的道德感。或者是宗教信仰的原因，怕上帝惩罚你，所以有宗教信仰的人道德感就要强于一般人。如在美国，教会的人道德感比较强，因为他们认为若不道德，将来会进地狱。这种解释中，道德是外界强加于人们的，使人们不违约。而笔者主要想给出的是第二种解释，即博弈论是如何解释道德的。

道德可以打破囚徒困境的难题，化解个人理性与社会群体理性的矛盾，维持整个社会经济体系的稳定与发展。关于这一点，我们来看一个猴群博弈的故事。

有一群猴子被关在笼子里，在笼子里的上方有一条绳子，绳子拴着一个香蕉，绳子连着一个机关，机关又与一个水源相连。猴子们发现了香蕉，有猴子跳上去够这个香蕉，当猴子够到时，与香蕉相连的绳子带动了机关，于是一盆水倒了下来，尽管够到香蕉的猴子吃到了香蕉，但其他猴子被淋湿了，这个过程重复着，猴子们发现，尽管有猴子吃到香蕉，但吃到香蕉的猴子是少数，而其余的大多数猴子都被淋湿。经过一段时间，有一伙猴子自觉地行动起来，当有猴子去抓香蕉时，它们便揍那个猴子。每当有猴子去摘香蕉，就有其他的猴子因愤怒而自动地去撕咬那个猴子，久而久之，猴子们产生了合作，再也没有猴子敢去取香蕉了。

在这个故事里，猴子间产生了“道德”。如果这群猴子构成一个社会，它们也繁衍下一代，它们会将它们的经历告诉下一代，渐渐地猴子们便认为取香蕉的后果对其他猴子不利，从而认为去取这个香蕉是“不道德的”，它们也会自动地惩罚“不道德的”猴子。当然这只是一个故事，但这个博弈故事却反映了人类的道德的产生过程。

霍布斯认为人类在没有任何约束的自然状态中，就是“人与人之间像狼与狼一样”，是“每个人对每个人的战争”。在这种状态中，每个人都力图保护自己的利益，并企图占有别人的东西，此时，每个人是每个人的敌人。此时没有任何规则，没有财产，没有正义或不正义，只有战争。武力与欺诈是战争中的两大基本德性。因此人类在自然状态下无法产生文明。

与国家一样，道德也是对某些不合作行动的惩罚机制。这种机制的出现使得人类从囚徒困境中走出来。人的正义与非正义的观念产生了道德感。

道德感自然地使得人们对不道德的或不正义的行为谴责或者对不道德的人不采取合作，从而使得不道德的人遭受损失。这样，社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道德，或者正义或非正义的观念，就自动地产生了调节作用。

当然，道德约束有其自身的局限性。它对不道德的行为的抑制是有限度的，当不道德的行为带来的利益大于道德的满足时，道德约束的作用便失效。举个很简单的例子，拾金不昧是理所当然的美德，当捡到别人丢的100块钱时还给失主不仅有道德满足感，还会受到社会的表扬，建立起自己的美誉；若不及时交换失主并很容易被发现的话，则会受到严厉的谴责并失去社会信誉。假想一下，当捡到别人遗失的价值上百万的古玩名画时，极大的可能是归为己有。这是因为他道德的满足感与可能所受谴责的效用远小于其所捡到物品给他带来的效用。这种情况下，道德作用失效了，法治就不可替换地代替了道德。

第3课 囚徒困境：太精明有时就是自陷困境

第3课囚徒困境：太精明有时就是自陷困境