纳什均衡与一致预期
张维迎 教授
北京大学光华管理学院
博弈的基本概念( 1)
? 参与人( players):博弈中决策主体的集合:什
么人参与博弈?每个人是什么角色?
? 行动( actions),每个人有些什么样行动可以选
择?在什么时候行动?
? 信息 (information):在博弈中的知识;每个人
知道些什么(包括特征、行动等)?
? 战略( strategies):行动计划;每个人有什么战
略可供选择?战略的完备性;
博弈的基本概念( 2)
? 支付( payoffs):每个人在不同战略组合下得到
些什么?依赖于所有参与人的选择;
? 均衡( equilibrium):所有参与人最优战略的组
合;
? 结果( outcomes):我们所感兴趣的东西。
静态博弈
? 最简单的博弈:所有参与人同时选择行
动,并且只选择一次;
?,同时”是一个信息概念,而不一定与
日历上的时间一致;
囚徒困境( prisoners’ dilemma)
? 囚徒困境
坦白 不坦白
坦白
不坦白
- 8,- 8 0,- 10
- 10,0 - 1,- 1
无论对方如何选择,每个人的最优选择:坦白。
所以,我们可以预测,结果将是(坦白,坦白)
占优均衡
(dominant-strategy equilibrium)
? 一般来说,由于每个参与人的效用依赖于所有人的选
择,因此每个人的最优选择(战略)也依赖于所有其
他人的选择(战略)。但在上述例子中,一个人的最
优选择并不依赖于他人的选择。这样的最优战略,被
称为“占优战略” (dominant strategy)。由所有参与人
的占优战略构成的战略组合被称为“占优均衡”。
? 占优战略均衡的出现只要求所有人都是理性的,但不
要求每个参与人知道其他参与人是否理性。
? 囚徒困境博弈有占优均衡,所以其结果很容易预测。
个人理性与集体理性的冲突
?,囚徒困境”表明个人理性与集体理性的冲突。
? 这样的例子很多:寡头竞争,军备竞赛,团队
生产中的劳动供给,公共产品的供给,等等;
? 许多的制度就是为解决“囚徒困境”而存在的;
公共产品( public goods)
提供 不提供
提供
不提供
4,4 -1,5
5,-1 0,0
无论对方如何选择,每个人的最优选择:不提供。
所以,我们可以预测,结果将是(不提供,不提供)
公共产品与税收制度
? 比较私人产品与公共产品的不同:使用
上排他性;
? 私人产品是志愿购买的,但公共产品可
能需要强制购买;
? 税收制度就是保证公共产品的生产,解
决公共产品生产上的“囚徒困境”
“囚徒困境”的一般表示
合作
不合作
合作 不合作
T,T S,R
R,S P,P
满足,R>T>P>S; (S+R)<T+T
用法律解决“囚徒困境”
合作
不合作
合作 不合作
T,T S,R-X
R-X,S P,P
满足,X>R-T
“智猪博弈” (boxed pigs)
? 有些博弈没有占优均衡,但通过剔除“坏”战
略,我们可以预测博弈的结果。如“智猪博弈”
按 等待

等待
3,1 2,4
7,- 1 0,0
这个博弈中,大猪的最优选择依赖
于小猪的选择,但小猪的最优选择
与大猪的选择无关。如果大猪知道
小猪的理性的,大猪将选择“按”。
均衡是“大猪按,小猪等待”。
“劣”战略:无论对方选择什么,如果
自己选择 A得到的总是收益小于选择
B得到的收益,A就是相对于 B的劣
战略。
重复剔除占优均衡
?,重复剔除严格劣战略” (iterated elimination of strictly
dominated strategy)的思路:首先找出博弈参与人的劣
战略 (dominated strategy)(假定存在的话),把这个劣
战略剔除后,剩下的是一个不包含已剔除劣战略的新
的博弈;然后在剔除这个新的博弈中的劣战略;继续
这个过程,直到没有劣战略存在。如果剩下的战略组
合是唯一的,这个唯一的战略组合就是“重复剔除占
优均衡” (iterated dominance equilibrium)。
? 如果这样的解存在,我们说该博弈是“重复剔除占优
可解的” (iterated dominance solvable),
理性共识
( common knowledge of rationality)
? (1)Zero-order CKR,每个人都是理性的,但不知
道其他人是否是理性的;
? (2)first-order CKR,每个人是理性的,并且知道
其他每个人也都是理性的,但并不知道其他人
是否知道自己是理性的;
? (3)second-order CKR,(1)+(2)+每个人知道( 2)
? nth-order CKR,R(b)C(b)R(b)……C(b)R is
rational,
重复剔除与理性共识
? 重复剔除不仅要求每个人是理性的,而且要求每个人
知道其他人是理性的,每个人知道每个人知道每个人
是理性的,如此等等,即理性是“共同知识”(共识)
C1 C2 C3
R1
R2
R3
10,4 1,5 98,4
9,9 0,3 99,8
1,98 0,100 100,98
这个博弈只要求
一阶理性共识就
可以预测均衡结
果。
如果把(下-左)
的第一个数字改为
11呢?
最优选择
? 这个博弈只要求一阶理性共识就可以预测均衡
结果,
? 如果 R相信 C是理性的,R就知道 C不会选择 C3,
所以 R的最优选择是 R1;
? 如果 C相信 R是理性的,C就知道 R不会选择 R2,
所以 C的最优选择是 C2。
? 但要 C预期 R不会选择 R3,需要二阶理性共识;
要 R不预期 C会选择 C1,需要三阶理性共识。
R排除 C选择 C1
R believes C believes R believes C is rational
(C1,C2)
R1
C2
好事变坏事?
? 在单人决策中,个人给定选择在所有情况下的收益都
增加,一个人的状况不会变得更坏,但博弈中则不同。


左 右


左 右
-1,3 2,1
0,2 3,4
1,3 4,1
0,2 3,4
选择越多,对理性共识的要求越高
R1
R2
R3
R4
C1 C2 C3 C4
5,10 0,11 1,20 10,10
4,0 1,1 2,0 20,0
3,2 0,4 4,3 50,1
2,93 0,92 0,91 100,90
(1)Zero-order CKR,C not choose C4 for C is rational
(2)1st-order CKR,R not choose R4 for R (b) C
(3)2nd-order CKR,C not choose C1 for C(b)R(b)C
(4)3rd-order CKR,R not choose R1 for R(b)C(b)R(b)C
(5)4th-order CKR,C not choose C3 for C(b) R(b)C(b)R(b)C
(6)5th-order CKR,R not choose R3 for R(b) C(b) R(b)C(b)R(b)C
so,(R2,C2) is an equilibrium
不能用重复剔除解的博弈
? 许多博弈没有占优均衡,也没有重复剔除的占
优均衡。考虑如下博弈,
C1 C2 C3
R1
R2
R3
0,4 4,0 5,3
4,0 0,4 5,3
3,5 3,5 6,6
可理性化的选择
? Rationalizable strategy,不能被重复剔除的
战略;或者说,可以被合理的信念 (belief)
所支持的行为;
? 例如,R理性化 选择 R1,
– 如果 R(b)C 选择 C2,
– 如果 R( b) C( b) R会选择 R2;
– 如果 R( b) C( b) R( b) C会选择 C1;
– 如果 R( b) C( b) R( b) C( b) R会选择 R1
Consistently aligned beliefs
(CAB)
? 考虑( R3,C3):对方不会犯预期错误,R选
择 R3,如果他认为 C会选择 C3; C会选择 C3,
如果他认为 R会选择 R3。
? CAB:每个人对别人行为的预期(信念)是正
确的;
? Harsanyi doctrine,如果两个理性的人具有相同
的信息,他们一定会得出相同的推断和相同的
结论 ;
? Robert Aumann,rational agents cannot agree to
disagree,
纳什均衡与一致预期
? 纳什均衡:所有参与人的最优战略的组合:给
定该战略中别人的选择,没有人有积极性改变
自己的选择。
? 一致预期:基于信念的选择是合理的;支持选
择的信念是正确的;
? 预期的自我实现:如何所有人认为这个结果会
出现,这个结果就会出现。预期是自我实现的,
预期不会错误。如果你认为我预期你将选择 X,
你就真的会选择 X。
哲学思考
? 如果参与人事前达成一个协议,在不存在外部
强制的情况下,每个人都有积极性遵守这个协
议,这个协议就是纳什均衡。
寻找纳什均衡
C1 C2 C3
R1
R2
R3
100,100 0,0 50,101
50,0 1,1 60,0
0,300 0,0 200,200
纳什均衡:举例
? 广告博弈
? 纳什均衡:(做广告,做广告)
战略 做广告 不做广告
做广告 4, 4 15, 1
不做广告 1, 15 10, 10
企业 1
企业 2
利用纳什均衡寻租
? 考虑股票市场融资的例子:设想企业价值是
100,现在发行的流通股为 100股,每股价值 1
元。现在假定经理想筹集 100元,投资价值只
有 50元。有人买新股吗?
? 假定每一股配 4股,价格为 0.25元。如果股东不
接受配股:原来一股 1元的价值就变成 0.3元
( =150/500);如果接受配股,他持有的股票
的价值是 1.5元;因为配股的成本是 1元,所以
他的最优选择是接受配股。
所有权配置与等级结构
? 考虑团队生产:让其中的一个人变成所
有者
工作 偷懒
工作
偷懒
6,6
2,2
0,8
8,0
纳什均衡与学习过程
R2
R1
NE
q1
q2
双寡头竞争,Cournot博弈
? 两个企业同时选择产量,价格由市场决
定;
? 假定需求函数为
其中 为企业 1的产量,为企业 2的产量
? 假定成本函数为,
? 那么,利润函数为,
)()( 21 qqaQP ???
1q
2q
iii qcqC ?)(
)()(
)()(
212222
211111
cqqaqcqQPq
cqqaqcqQPq
???????
???????
双寡头竞争(续)
? 企业最大化利润的一阶条件为,
? 纳什均衡产量,
? 纳什均衡利润为
22
)(
22
)(
1
222
2
211
qca
qRq
qca
qRq
?
?
??
?
?
??
321
ca
qq NENE
?
??
9
)( 2
21
caNENE ?????
垄断产量和垄断利润
? 垄断企业的目标函数,
? 垄断产量,
? 垄断利润,
)()( cQaQQcQQPM ??????
2
ca
Q M
?
?
4
)( 2ca
M
?
??
划拳博弈
老虎


杠子
老虎 鸡 虫 杠子
0,0 1,-1 0,0 -1,1
-1,1 0,0 1,-1 0,0
0,0 -1,1 0,0 1,-1
1,-1 0,0 -1,1 0,0
混合战略纳什均衡
? 有些博弈没有“纯战略”纳什均衡,但
有混合战略纳什均衡,如监督博弈。
监督
不监督
偷懒 不偷懒
1,- 1 - 1,2
- 2,3 2,2
给定工人偷懒,老板的最优
选择是监督;给定老板监督,
工人的最优选择是不偷懒;
给定工人不偷懒,老板的最
优选择是不监督;给定老板
不监督,工人的最优选择是
偷懒;如此循环。
纳什均衡的存在性问题
? 每一个有限博弈至少存在一个纳什均衡
(纯战略或混合战略);
? 如果一个博弈存在两个纯战略纳什均衡,
那么,一定存在第三个混合战略纳什均
衡。
风险与均衡
? 由于纳什均衡要求理性共识和一致预期,当人
们可能犯小小的错误时,纳什均衡不一定被选
择。如下面这个博弈中,多数人将选择,下”
而不是“上”。


左 右
8,10 -1000,9
7,6 6,5
只要 B有千分之一的
概念错误地选择右,
A将选择下;如果 B怀疑
A怀疑自己可能犯错误,
B将选择右。所以,出现
的不是纳什均衡
有问题的纳什均衡?
C1 C2 C3
R1
R2
R3
2,2 3,1 0,2
1,3 2,2 3,2
2,0 2,3 2,2