第四章
动态博弈与承诺
张维迎
北京大学光华管理学院
动态博弈
? 行动有先后顺序,不同的参与人在不同时点行
动,先行动者的选择影响后行动者的选择空间,
后行动者可以观察到先行动者做了什么选择,
因此,为了做出最优的行动选择,每个参与人
都必须这样思考问题:如果我如此选择,对方
将如何应对?如果我是他,我将会如何行动?
给定他的应对,什么是我的最优选择?
? 如下棋
博弈树( game tree)
A
B
B
进入
不进入
进入
不进入
进入
不进入
(-1,-1)
(1,0)
(0,1)
(0,0)
动态博弈中的战略
? 战略是一个完备的行动计划:在博弈开
始之前就规定出每一个决策点上的选择,
即使这个决策点实际上不会出现。
? 考虑老师与学生之间考试之后的一个博
弈:老师先行动(判分),学生后行动
(在不同分数下如何应对)。假定学生
的实际成绩是不及格。
战略表式下的纳什均衡







学生
A,F F,A A,A F,F
-1,1 -10,-10 -1,1 -10,-10
-10,-10 1,-1 1,-1 -10,-10
三个纳什均衡
? (及格; A,F);(不及格; F,A);
(不及格; A,A)
? 问题:哪一个会出现呢?
不可置信的威胁 (noncredible threat)
? 在(及格; A,F)和(不及格; F,A)中,
学生“报复( F)”的威胁是不可信的:无论
老师判“及格”还是“不及格”,“报复”不
是学生的最优选择;
? 事前( ex ante)和事后 (ex post):一种战略所规
定的行动在事前看来是最优的,但事后看并不
是当事人的最优选择,这种行动就不可置信,
该战略就不是一个合理的战略。
精炼纳什均衡( perfect NE)
? 不包含不可置信的行动的战略所组成的纳什均
衡被称为“精炼纳什均衡”;也就是说,不论
过去发生了什么,构成精炼纳什均衡的战略,
其所规定的行动在每一个决策点上都是最优的。
所以,又称为“序惯均衡” (sequential
equilibrium);
? 首先必须是“纳什均衡”,但并非所有纳什均
衡都是合理的;只有其战略不包含不可置信行
动的纳什均衡才是合理的。
子博弈( subgame)
? 由原博弈中某个决策点(信息集)开始
的部分构成一个子博弈。
1
2
3
2 3
原博弈 子博弈 I 子博弈 II
子博弈精炼纳什均衡
? 精炼纳什均衡:( 1)在原博弈是一个纳
什均衡;( 2)在每一个子博弈上都是纳
什均衡。
? 考试博弈,
– (及格; A,F)在第二个子博弈上不构成纳什均衡;
– (不及格; F,A)在第一个子博弈不构成纳什均衡;
– (不及格; A,A)在所有子博弈上都构成纳什均衡。
老师
学生
学生
及格
不及格
报复
接受
报复
接受
(-10,-10)
(-1,1)
(-10,-10)
(1,-1)
考试博弈
逆向归纳法 (backward induction)
? 在有限博弈中,我们可以用逆向归纳法
求解精炼纳什均衡:从最后一个决策点
开始,找出该子博弈的纳什均衡;然后
再倒回到倒数第二个决策点,找出决策
者的最优决策(假定最后一个决策者的
决策是最有的;如此一直到初始决策点,
所有子博弈上的最优选择就是精炼纳什
均衡。又称,rollback”,
举例
1
2
1
( 2,0)
( 5,0)
( 4,2)
( 1,1)
U
D R
L
U’
D’
均衡路径与非均衡路径
? 精炼纳什均衡下所经过的决策点和最优选择构
成的路径,称为均衡路径( equilibrium path);
? 其他的路径是非均衡路径( off-equilibrium
path);
? 均衡结果依赖于非均衡路径上的选择,1只所
以一开始就选择 U,是因为他预期如果选择 D
的话,2将选择 L;而 2只所以选择 L,是因为她
预期如果选择 R的话,1将选择 U’。
精炼均衡与理性共识
? 逆向归纳的过程实际上就是重复剔除劣
战略的过程,其前提是博弈规则和理性
共识:每个人是理性的,每个人知道每
个人是理性的,如此等等。
? 因此,精炼纳什均衡的合理性取决于理
性共识的合理性。后面再讨论。
先动优势与后动优势
? 在动态博弈中,行动总有先后顺序。有些博弈
具有先动优势 (first-mover advantage),但有些博
弈具有后动优势 (second-mover advantage),
? 让产量竞争具有先动优势,而价格竞争可能是
后动优势;
? 开会发言?
? 在不完全信息下,顺序更重要。
? 但有些博弈既没有先动优势,也没有后动优势,
如抓阄。
练习:数 30博弈
? 数 30游戏,
– 两个人,交替选择数字,每次只能选择一个
或两个数字。
– 每次可以选择 1-3个数字呢?
不可置信威胁
? 精炼纳什均衡剔除了不可置信的威胁,使得我们可以
更合理地对博弈中参与人行为的预测;
? 不可置信威胁的根源是事前最优与事后最优不同,导
致许多帕累托效率无法实现;
? 劫机事件为什么会发生?
? 管教孩子为什么困难?
? 家族企业为什么难以实行制度化管理?
? 大企业为什么效率低?( TBTF)
? 研究学录取中的问题;
承诺
? 承诺是将不可置信的威胁变成可置信的威胁的
行动:威胁不仅是事前最优的,也是事后最优
的。
? 承诺意味着限制自己的自由:选择少反而对自
己好。
? 如“破釜沉舟”的故事。
? 围城战略。
举例:如果 1承诺不选择 U’
1
2
1
( 2,0)
( 5,0)
( 4,2)
( 1,1)
U
D R
L
U’
D’
承诺举例
? 婚姻中的承诺:彩礼、昂贵的婚礼可以
理解为一种对婚姻的承诺;
? 订金、抵押物做为对交易的承诺;
?,安营扎寨”;
? 固定资产投资可以作为承诺;
? 所有权的承诺作用;
最惠条款
? 生产耐用品的企业经常被“降价预期”
所困扰:如果消费者预期企业将降价,
他们将会等待,结果,企业只能降价。
如汽车行业面临的问题;
? 最惠条款可以起到承诺的作用:企业不
会降价了。
例子
产量 价格 收入
1
2
3
4
100
80
40
30
100
160
120
120
假定企业一开始定价 80,
如果前两个消费者购买了,
企业将有积极性在 50的价
格下向第三个顾客出售。
预期到这一点,前两个顾
客将不会购买。如果企业
向保证,任何降价的差额
将返还顾客,前两个顾客
将会购买。因为企业事实
上不会降价了。
大学改革:不升即走 (up-or-out)
? 没有这样的制度,人才就可能得不到公
正评价;
?,不升即走”是大学对教员的承诺:不
会压制优秀人才。
Up-or-out 博弈
教员
学校
学校
努力
不努力
提升
不提升
提升
不提升
(4,4)
(1,7)
(3,3)
(2,4)
(4,4)
(x,0)
(3,3)
(y,0)
老制度 新制度
画家和政府的苦恼
? 名画的价值取决于数量,画家常为无法承诺而
苦恼:谁相信他不会再画呢?这可能是为什么
死了画家的画最值钱。
? 政府也有类似的问题。政府经常缺乏承诺:给
定投资者进入的情况下,多征税是最优的;但
投资者预期到这一点,将不愿意进入。
? 中国许多地方支付有严重的机会主义行为。
?,坦白从宽,抗拒从严”面临的问题也如此。
作为承诺的法律
? 法律改变事后的选择空间或选择成本,所以可
以起到承诺的作用;
? 合同的承诺作用(违约的成本增加,使得遵守
合同更可能是事后最优的选择);
? 刑法:为什么不能商量?为什么对严重犯罪要
执行死刑?
? 台湾问题:立法还是政府随机应变?
?,法治” (rule of law)是政府的承诺;
有限政府( limited government)
? 市场要求有限政府:政府不仅要保护个
人的基本权利不受其他人的侵犯,而且
要把尊重这些权利作为对政府行为的限
制。如果政府的自由裁量权过大,政府
官员为所欲为,政府本身会受到损害;
? 这里的关键是:老百姓与政府之间的博
弈。
光荣革命与英国政府的财政
? 年份 总收入 总支出 总国债
? 1668-1688 1.9 2.1 2.0
? 1695 4.1 6.2 8.4
? 1697 3.3 7.9 16.7
? 1720 6.3 5.6 54.0
? 1770 11.4 10.5 130.6
? 1780 12.5 22.6 167.2
? 1790 17.0 16.8 244.0
0
2
4
6
8
10
12
14
16
18
1620 1630 1645 1660 1670 1680 1691 1697
主权债模型
L D G
L
L
H
R
P(a)
P(a)
政府的举债能力
? 假定政府借 D的债务,利息率是 r,贷款
人对政府所能实施的最大可信惩罚是 P,
那么,如果 D(1+r)<P(a),政府将还钱,否
则政府将不还钱。所以政府的举债能力
为 D<P(a)/(1+r)
? 英国光荣革命通过制度变迁 (改变 a)提高
了国王违约时面临的最大可能惩罚 P(a)
英国光荣革命
? 光荣革命前,国王可以随意单方面修改借款条
款,拖延甚至拒绝支付;利用外国商人瓦解债
权人之间的联盟;所以债权人不愿意向政府贷
款;
? 光荣革命后:决定国债的权力在议会,议会主
要由潜在债权人组成,可以推翻国王; BANK
OF ENGLAND统一协调债权的行动,通过优先
权的规定限制了政府“离间”债权人的可能。
因为对违约的惩罚变大了,政府举债的能力提
高了。
逆向归纳的问题,
A B B
D
U
D
U
D
U
(2,-1) (1,2) (4,1) (3,4)
(6,3) A
D
U
Counterfactual Problem
? 犯错误的可能( trembling hand);
? 参与人是非理性的( automation
assumption);
? 假装非理性;
? 理性非共识
人们为什么会受骗?
? 如房地产;
? 政治运动;
The ultimatum game
? 两人之间分配一笔钱,其中一个人提出
方案,另一个人可以接受,也可以拒绝;
如果接受,每人得到方案规定的份额;
如果拒绝,没有人得到任何东西。
? 什么是这个博弈的精练纳什均衡?
? 实验结果,
1.同班同学
总数
给对方
最低接受
10
4.9
3.39
100
48.17
35.64
1000
463.08
363.45
10000
4537.43
3595.13
2,北京大学同学
总数
给对方
最低接受
10
4.57
3.74
100
43.26
37.72
1000
409.26
370.17
10000
3880.78
3539.68
3.陌生人
总数
给对方
最低接受
10
4.09
4.05
100
35.41
35.04
1000
343.11
342.67
10000
3134.37
3127.78