第 12章
演进博弈与自发秩序
张维迎
北京大学光华管理学院
理性与经验
? 传统博弈理论,每个人都是理性的,并且理
性和博弈结构的共同知识 ;每个人都在选
择战略最大化自己的利益 ;只要知道博弈
的结构,就可以预测均衡结果 ;
? 但其他社会科学家一直对理性人假设抱
有怀疑,
进化博弈
? John Maynard Smith and G Price,1973; Maynard
Smith,1982,Evolution and the Theory of Games,
CUP;
? 生物博弈是基因之间的博弈;
? 生物行为 (战略 )是由基因 (genes)决定的 ;基因的
生存和繁殖由自然选择决定 ;最适合生存的基因
不断繁衍,而不适合生存的基因被淘汰 ;生物进
化是一个自然选择的过程 ;最后可能导致一个稳
定状态,
演化稳定战略
? ESS,evolutionary stable strategies,
? 种群中可以持续存在的行为方式 ;
? 静态, 一个特定的行为方式被称为是演化稳定
的,如果它的种群不能被变异所成功侵入 ;或者
说,任何偏离行为的个体具有更低的生存能力,
种群将会恢复到原来的状态 ;
? 动态, 假定初始状态存在多样的行为方式,随着
时间的推移,如果某个特定的行为方式能逐步主
导整个种群,这个特定的行为方式就是 ESS;
ESS与纳什均衡
? ESS一定是纳什均衡,但并非所有的纳什
均衡都是 ESS;
? 演化过程可以帮助选择特定的纳什均衡 ;
生物进化与社会演进
? 战略,
– 生物行为是基因决定的,个人没有选择性 ;
– 社会行为并不完全取决于基因,而是与社会环境、文化、教育、
以及个体的经验等因素等有关;个体有选择性
? 适应性 (fitness):基因的繁殖能力;总的或平均的报酬
( payoff);
? 传递,基因遗传;成功的人将信息传输给朋友、同事;
好的行为方式会被学习、模仿;人们也会有意识地通
过“试错”的办法寻找好的战略;所以社会和教育机
制更为重要;
单元均衡与多元均衡
? 演化稳定状态可能只有一个战略(行为
方式),也可能包含多个具有同样适应
性的行为方式;
? 前者称为单元均衡( monomorphic
equilibrium);
? 后者称为多元均衡 (polymorphic
equilibrium),
协调博弈:左撇子与右撇子
? 设想总人口中有两类人:一类人是左撇
子;另一类人是右撇子;
? 任意挑选其中的一对进行博弈;
? 支付矩阵如下图所示;
? 注意:战略是先天决定的,参与者并不
在两种战略之间选择。
左撇子与右撇子
左撇子
右撇子
左撇子
右撇子
1,1 0,0
0,0 1,1
谁最适合生存?
? 答案依赖与初始的人口分布。直观。
? 假定总人口中有 x的比例是左撇子,1-x
的比例是右撇子。那么,左撇子的预期
支付为,x1+(1-x)0=x;
? 右撇子的预期支付,x0+(1-x)1=1-x;
? x>(1-x) x>1/2
三个均衡
? 如果 x>1/2,左撇子更具生存能力,他们
的比例将增加,直到 100%;单元均衡;
? 如果 x<1/2,右撇子更具有生存能力,他
们的比例将增加,直到 100%;单元均衡;
? 如果 x=1/2,两类人的生存能力相同;二
元均衡。
? 但只有前两个均衡是 ESS;单元均衡。
图示
1 1
0 X=1 1/2
生存能力
右撇子 左撇子
与理性人博弈比较
? 如果战略是理性人选择的结果,这个博弈也有
三个均衡:(左撇子,左撇子);(右撇子,
右撇子);( 1/2左,1/2右) ;
? 所以,并非所有的纳什均衡都是演化稳定均衡;
? 但与“混合战略均衡”解释不同:每个人都是
纯战略,只是一半人用左手,另一半人用右手;
? 演化稳定性为选择特定的纳什均衡提供了新的
依据;
? 演化稳定单元均衡:战略是对自身的最优反应
( reply),
父母怎样教育孩子?
? 一旦使用右手成为主导习惯,少数左撇
子并不能改变结果;
? 所以为了孩子的利益,父母会教育孩子
用右手;
? 用手的习惯既有基因的遗传,也有后天
的训练。
? 这可能是社会行为的典型特征。
交通博弈
靠左行
靠右行
靠左行
靠右行
1,1 -1,-1
-1,-1 1,1
协调博弈:婚姻
物质型
感情型
物质型
感情型
1,1 0,0
0,0 2,2
谁将生存?
? 假定总人口中,物质型的比例为 x,感情
型的比例为( 1-x);
? 那么,对任何一个个体而言,物质型的
预期支付,x1+(1-x)0=x;
? 感情型的预期支付,x0+(1-x)2=2(1-x);
? x=2/3
均衡
? 如果 x>2/3,物质型更适合生存,将演化
成稳定均衡;
? 如果 x<2/3,感情型更适合生存,将演化
成稳定均衡;
? 如果 x=2/3,两类人有同样的适应性,但
这一(二元)均衡是非稳定的;
? 演化均衡不一定是帕累托最优均衡。
图示
2 1
0 X=1 2/3
生存能力
感情型
物质型
婚姻的习俗
? 找对象的主流模式影响个体的行为;物
质主义盛行的社会,任何人都难以不随
波逐流;
? 门当户对;
? 信息与感情型:即使物质型大于 2/3,感
情型也可能生存下来。
锁定与路径依赖
? 演化均衡意味着技术、社会制度都可能
长时间锁定在非帕累托状态;
? 但不同制度之间的竞争可能打破非帕累
托均衡;
? 如全球化对公司治理结构以及其他制度
的影响。
囚徒困境
合作
不合作
合作
不合作
4,4 -1,6
6,-1 0,0
一次性博弈
?,不合作”演化稳定均衡;
? 一般地,如果存在占优战略( dominant
strategy),该占优战略是 ESS;
博弈重复两次
ALL-C ALL-D
ALL-C
ALL-D
8,8 -2,12
12,-2 0,0
TFT
TFT 8,8
8,8
8,8 -1,6
6,-1
谁将生存?
? 首先注意到,幼稚的合作型生存能力最差:如
果遇到 ALL-C和 TFT,与 TFT得到相同的支付,
但如果遇到 ALL-D,则比 TFT更遭;
? 所以 TFT比 ALL-C更能生存;
? 如果初始人口由 ALL-C和 ALL-D组成,TFT将
可以成功的侵入;
? 如果初始人口全是 ALL-C或由 ALL-C和 TFT组
成,ALL-D将可以成功入侵;
? 所以 ALL-C不是 ESS。
两类,ALL-D和 TFT
TFT ALL-D
TFT
ALL-D
8,8 -1,6
6,-1 0,0
谁将生存?
? 假定初始人口中 TFT的比例为 x,ALL-D
的比例为( 1-x);
? TFT的预期支付,8x-(1-x)=9x-1;
? ALL-D的预期支付,6x+0( 1-x) =6x;
? 9x-1>6x
? x>1/3
均衡
? 如果 x/1/3,TFT生存;稳定均衡;
? 如果 x<1/3,ALL-D生存;稳定均衡;
? 如果 x=1/3,二者同样生存,但不是稳定
均衡;
图示
8 8
0 x=1 1/3
生存能力
ALL-D:6x
TFT:9x-1
-1
N次博弈
TFT ALL-D
TFT
ALL-D
4n,4n -1,6
6,-1 0,0
生存能力
? TFT,4nx-(1-x);
? ALL-D,6x+0(1-x)=6x
? 4nx-(1-x)>6x
? (4n-5)x>1
? x>1/(4n-5)
X与 N的关系
1/3
x
n n=2
TFT均衡
ALL-均衡
Robert Axelrod
? Axelrod(1981,1984)著名的实验证明,在
14种战略中,TFT是最成功的;
? 在第 2个实验中,在 62个战略中,TFT是
最成功的。
弱稳定与强稳定
? 稳定性依赖于变异战略 (mutant)的种类;
? 假定原来的人口全由 TFT组成。如果变异
是 ALL-C,合作继续维持,但比例不会
变化,
? 强稳定 (strong stable):变异入侵之后,元
战略比例会增加直到把变异者消灭为止;
? 若弱稳定 weak stable):变异入侵后,比
例不会变化。“中性变异”
TFT,TF2T,STFT
? ALL-C和 TF2T是 TFT的中性变异;
? 如果初始人口由 TFT和 TFT2T组成,
STFT入侵后,TFT将消失;
? 所以,TFT甚至不是弱稳定战略。人们将
模仿成功者。
合作社会会被破坏吗?
? 假定 TFT长时间维持了社会的合作;人们
可能变成 ALL-C类型;此时,ALL-D入
侵后,将可能蔓延很长时间,甚至导致
整个社会进入非合作社会;
? 中国人在西方为什么容易行骗?
TFT:动物界的合作
? Manfred Milinski (1987),among certain small fish
that face an iterated PD;
? 当一条大鱼进入一群小鱼的池塘时,一条或更多的小
鱼将接近它侦探它有危险。这种掠夺侦察活动对这些
侦探者是有风险的,但整个鱼群是有好处的:如果侵
入者不是掠夺者或者不是特别饥饿,小鱼无须疏散。
PD:每个个体都有很强的动机背叛,让其他鱼完成侦
察;但是如果所有的鱼都背叛,就不可能获得侵入者
的信息。而完全的合作可以最小化总的风险,因为如
果不能集中与单个目标,入侵者将被迷惑。
(续)
? Milinski 和 Dugatkin独立地发现,鱼类确实在使
用 TFT:当一对鱼接近入侵者时,如果一条想
尾随在后,走在前面的鱼转身向后,等待另一
条跟上,然后再并行前进。日复一日,Guppies
甚至可以记住其他同伙过去的表现。如果一次
试验中一方背叛,另一方在第二天的试验中也
会背叛。
? Guppies倾向于与过去表现出更具合作精神的鱼
结伴而行。
鹰 -鸽博弈
HAWK DOVE
HAWK
DOVE
-1,-1 1,0
0,1 0.5,0.5
生存能力
? 假定鹰派的比例是 x,鸽派的比例是 1-x;
? 鹰派的支付,-x+(1-x)=1-2x;
? 鸽派的支付, 0x+0.5(1-x)=0.5(1-x);
? 1-2x>0.5(1-x);
? x<1/3
均衡
? 如果 x<1/3,鹰派占优势;不稳定
? 如果 x>1/3,鸽派占优势 ;不稳定
? 如果 x=1/3,同样的适应性;稳定;
? 稳定均衡是 POLYMORPHIC;
图示
1 8
0
x=1
1/3
生存能力
-1
鹰派,1-2x
鸽派,0.5(1-X)
二元均衡
? 鹰派和鸽派同时并存;
? 如果初始人口由单一类型构成,另一类
型可以成功入侵,直到均衡;
? 少数派占优势;
?,男人不坏,女人不爱”?
自发秩序与产权制度
? 人类的行为并非完全有基因唯一决定;
即使并非总是完全理性地计算,人们也
必然要在不同的战略之间选择;
? 社会秩序是所有人行为选择的结果,但
不是集中设计的,而是自发演化的结果;
? 产权制度:先占原则( possession rule);
? 教室占座位,
? ROBERT SUGDEN,JEP,1989,
鹰 -鸽博弈
HAWK DOVE
HAWK
DOVE
-1,-1 1,0
0,1 0.5,0.5
A
B
三个纳什均衡
? 两个纯战略均衡,
– ( A-鹰,B-鸽);
– ( A-鸽,B-鹰);
? 一个混合战略均衡:( 1/3,2/3)
? 仅仅“理性”不足以决定均衡。但有限
理性但有一定经验和想象力的人们可以
协调他们的行为。
信号与身份
? 如果两人完全一样,就没有办法选择特定的均
衡;
? 假定存在某种显性的标记机制:在博弈开始之
前,每个人收到一个信号,A或 B;概率是 1/2;
信号完全负相关;标记是共同知识;
? 规则:如果 A,选择“鹰”;如果 B,选择
“鸽”;
? 每个人都有积极性遵守这个习惯(规则);
? 这个习惯就是事实上的产权规则( de fact),
ESS
? ( 1)如果 A,选择“鹰”;如果 B,选
择“鸽”;
? ( 2)如果 A,选择“鸽”;如果 B,选
择“鹰”;
? ( 3)无论是 A还是 B,以 1/3的概率选择
“鹰”,2/3的概率选择“鸽”;
? 只有( 1)和( 2)是 ESS。
哪一个习惯( convention)
? 演化过程将给出习惯。
? 习惯可以是演化稳定的,即使他们是非
帕累托效率的。
? 如下图中:如果习惯( 1)给每个人的预
期收入是 0.55; 习惯( 2)给每个人的预期
收入是 0.45;因此( 2)帕累托劣于( 1),
但一旦建立,就会持续存在。
鹰 -鸽博弈
HAWK DOVE
HAWK
DOVE
-1,-1 1.1,0
0,0.9 0.55,0.45
A
B
习惯如何开始演化?
? 一旦大部分人开始遵守一个习惯,这个习惯就
会自我加强;最容易在没有习惯的地方建立的
行为规则最容易成为习惯;
? 最初的信念何来?一种可能是能使人们在一次
博弈中无须交流就可以相互协调的力量;
? 先验的预期来自共同的经验,
? 习惯通过“类比”而扩散:如果共同的经验告
诉我们一种特定习惯在一种情况下会被人们普
遍遵守,这种习惯就成为类似情况下的模仿对
象。
类比创造习惯
? 儒家的“家”与“国”;
? 习惯家族,first-on 规则(先来后到);
?, first come,first served”;,last in,first out”;
? 产权规则:谁先占,谁所有;
? 领土的国际争端;
? 即使一开始不同的人有不同的习惯,随着时间
的推移,人们趋向于最成功的规则;
? popularity,遵守的人越多,越值得遵守。
从习惯 (convention)到规范 (norms)
? 习惯是已经建立起来的行为规则;
? 如果人们认为每个人都应该按照这样的
规则行为,习惯就变成了规范 (norms);
? 转换机制:对别人认可的渴望。与对物
质的渴望同样重要。
? Psychological externality,one person’s
state of mine can affect that other person’s
happiness or utility,不同与 punishment,
产权规则
? 产权规则一旦建立,每个人都会预期其他人会遵守这
个规则;给定这样的预期,遵守它是每个人的利益所
在。
? 给定自己遵守,每个人希望其他人也遵守;任何违反
规则的行为都会被认为是一个威胁,引起愤怒和不满。
? 规则的其他受益者也会间接地感到威胁,因为他们也
期待着靠这些规则保护自己的利益,所以会同情直接
的受害者。
? 为什么?因为规则一旦建立,偶然的破坏并不会导致它的瓦解。
? 但系统地偏袒少数人的习惯可能不会得到普遍遵守,因为处于不
利地位的群体并不会谴责违反行为。
重男轻女
? 为什么妇女也“重男轻女”?
Norm entrepreneurs
? 尽管习惯和规范是自然演化而来的,而非集体
理性选择的结果,因而也不一定是帕累托有效
的,但 norm entrepreneurs在规范的演化中具有
重要的作用; (Sunstein,1996)
? norm entrepreneur的收益依赖于接受其推荐的
规范的人数;遵守的人越多,说明越成功;
? 创造社会规范是一种风险活动,只有少数人愿
意冒险行事。
? 孔子。