第 6章
重复博弈与合作行为
张维迎 教授
北京大学光华管理学院
序惯博弈与重复博弈
? 序惯博弈 (sequential game):参与人在前一个决
策点的选择决定随后的子博弈的结构,因此,
从后一个决策点开始的子博弈不同于从前一个
决策点开始的子博弈,或者说,同样结构的子
博弈只出现一次;
? 重复博弈 (repeated game):同样结构的博弈重
复多次,其中的每次博弈被称为“阶段博弈”
(stage game),
重复博弈的三个特征
? 阶段博弈之间没有物质上的联系,也就
是说,前一阶段的博弈不改变后一阶段
的结构;
? 所有参与人观察到博弈过去的历史;
? 参与人的总支付(报酬)是所有阶段博
弈支付的贴现值之和;
重复博弈和信誉问题
? 如果博弈不是一次的,而是重复进行的,参与
人过去行动的历史是可以观察到的,参与人就
可以将自己的选择依赖于其他人之前的行动,
因而有了更多的战略可以选择,均衡结果可能
与一次博弈大不相同。
? 重复博弈理论的最大贡献是对人们之间的合作
行为提供了理性解释;在囚徒困境中,一次博
弈的唯一均衡是不合作(即坦白)。但如果博
弈无限重复,合作就可能出现。
囚徒困境博弈
合作 不合作





3,3 -1,4
4,-1 0,0
A
B
重复博弈与战略空间的扩展
? 假定上属博弈重复多次或无限次;那么,每个参与人
有多个可以选择的战略:仅举几例,
? All-D,不论过去什么发生,总是选择不合作;
? All-C,不论过去什么发生,总是选择合作;
? 合作 -不合作交替进行;
? tit-for-tat,从合作开始,之后每次选择对方前一阶段的
行动;
? trigger strategies,从合作开始,一直到有一方不合作,
然后永远选择不合作。
“囚徒困境”的一般表示
合作
不合作
合作 不合作
T,T S,R
R,S P,P
满足,R>T>P>S; (S+R)<T+T
支付函数
? 双方都不合作,
? 对 的解释,
– 贴现率;
– 博弈继续的概率;
– 二者的结合;
– 一般化:未来收益的重要程度
?
???
?
??????
1
1...d)-a l ld,-a l l( 32 PPPPPV
?
无名氏定理 (Folk Theorem)
? 在无限次重复博弈中,如果参与人对未
来足够重视( 足够大),那么,任何
程度的合作都可以通过一个特定的子博
弈精炼纳什均衡得到。
? 这里“合作程度”定义为整个博弈中合
作出现的频率。
? 50年代就人所共知,但无人有发明权;
?
Tit-for-tat
? 纳什均衡,但不是精炼纳什均衡,
?
???
?
??????
1
1...T F T )T F T,( 32 TTTTTV
?
????
?
???????
1
...T F T )D,-A l l( 32 PTPPPTV
Why Not A Perfect NE
? 假定 A在 t=5的时候,没有合作。根据 TFT战略,
在 t=6,B应该选择惩罚(不合作)。 B会这样
吗?
? 如果 B相信 A采取的是 TFT战略,那么:如果 B
对 A实施惩罚,预期的收入流为,
? 反之,如果 B原谅 A,
,...,,,,RSRSR
,...,,,,TTTTT
Axelrod (1984)
? Tit-for-tat 是成功率最高的战略
Trigger strategies
? 如果未来足够重要,精炼纳什均衡,
?
???
?
??????
1
1...t r i g g e r )( 32 TTTTTV 合作,
?
????
?
???????
1
...t r i g g e r )( 32 PRPPPRV 不合作,
合作的条件
? 如果下列条件满足,合作就是均衡结果,
?
?
? ?
??
? 11
1
PRT
PR
TR
?
?
??
解释
? R-T可以理解为不合作的诱惑;
? R-P是合作的剩余(利益);
? 条件说明,
– 给定未来的重要程度,不合作的一次性诱惑
( R-T)相对于合作带来的利益( R-P)越小,
合作的可能性越大;
– 给定不合作的诱惑和合作带来的利益,未来
越重要,合作的可能性越大;
行为的信息传递
? 假如欺骗两次才被发现,
?
?
?????
?
?????????
1
)1(...
t r i g g e r )(
2
432
PRPPPRR
V 不合作,
PR
TR
PR
TR
?
?
?
?
?
??
含义
? 欺骗行为越难以被发现,欺骗发生的可
能性越大;或者说,合作越困难;
? 在前面的例子,R=4,T=3,P=0,如果欺骗
一次就被发现,只要 合作就
会出现;而如果欺骗两次才被发现,只
有当 时,合作才可能出现;
? 一般地,欺骗行为越不容易被发现,合
作越困难。
25.0
04
34 ?
?
???
5.0??
惩罚与合作
? Abreu(1986):最大合作战略是使用最严厉的可
信惩罚( the strongest credible punishment);
? 维护合作并不需要无限期的惩罚;只要惩罚期
足够长就可以了;
? 萝卜加大棒( stick and carrot),从合作开始,一直合作
直到:如果有任何一方在 t期不合作,在 t+1期,前期合
作者选择“不合作”来实施惩罚,前期不合作者选择
合作;如果该合作的没有合作或者该惩罚的没有惩罚,
在 t+2期继续按照上述 t+1期的战略规定博弈;否则,合
作恢复。
解释
? 在合作子博弈,合作的条件是,
? 在非惩罚子博弈,合作的条件是,
ST
TR
SRTT
?
?
????? ???
ST
SP
SPTS
?
?
????? ???
不可信的惩罚:垄断厂家
客户
商家
不购买
购买
诚实
欺骗
( 5,5)
( 1,7)
( 0,0)
不确定性下的最优处罚
? 在确定的情况下,惩罚越严厉,越有助
于合作。因为均衡情况下,欺骗从来不
会发生,所以惩罚实际上是没有成本的。
? 但在不确定的情况下,即使每个人都选
择合作,“坏结果”也会出现。如果坏
结果总是触发惩罚,就会冤枉好人,过
重的惩罚反到导致不合作;但如果总是
原谅,合作也不会发生。
多重交易关系与合作行为
合作 不合作





3,3 -1,4
4,-1 0,0
合作 不合作





5,5 0,9
9,0 4,4
交易关系 I 交易关系 II
合作条件
? 在交易关系 I中,合作要求
? 在交易关系 II中,合作要求
? 如果两种交易在同样的两个人之间进行,只

,,两 种交易中都会合作;
? 设想实际的, 那么如果两种交易发
生在不同的人之间,合作只出现在市场 I,不会
出现于市场 II。但如果两人之间同时存在两种
交易,合作存在于两个市场。
25.0??
8.0??
56.0??
6.0??
社会关系与合作行为
? 更一般地讲,市场交易常常镶嵌在复杂
的社会关系中。这种关系可以提高交易
的合作程度。这也是人们愿意发展社会
关系的原因。
举例
? 在交易关系 II中,假定除了这一交易外,
当事人双方之间还存在另外的社会关系,
这一社会关系对每一方的现值是 V。如果
交易中出现欺骗,这一价值就不存在。
合作条件为,
V
V
?
?
?
5
4
?
应用
? 家庭血缘关系;
? 朋友关系;
? 同学关系;
? 老乡关系(保姆市场);
经 济 诱 惑
非合作区域
100
合作区域
0, 5 感 情 系 数
家族企业的困境;“杀熟”
? 如果惩罚对惩罚者本身的损害太大,惩罚就是
不可信的。这与投鼠忌器是一个道理,你讨厌
老鼠,但是你没有办法,因为你心疼那个盘子,
那个器皿。投鼠忌器在我们企业内部很多环节
都会发生,导致惩罚不可信,所以对方就不会
太注重信誉。家族成员有时候比非家族成员更
不可信任,更不守规矩,就是这个道理。
? 朋友专门骗朋友,是“杀熟”。问题也与惩罚
的不可信有关。
第三方实施的惩罚
? 前面假定了固定的一对参与人进行重复博弈,
对不合作的惩罚是由“受害人”本人实施的,
称为,second-party enforcement”,或者
,personal enforcement”;
? 但更经常的情况是参与人不固定的情况。此时,
惩罚要由第三方实施 (third-party enforcement);
? 问题是第三方惩罚欺骗别人的人的同时,自己
可能失去合作带来的好处。,second-order
prisoner’s dilemma”,
长期参与人与不固定的短期参与人
? 最简单的例子是厂家与消费者之间的博
弈:每个消费者一般只购买一次,而厂
家重复出售产品给众多的消费者。
? 此时,只要消费者足够多,并且每个消
费者能观察到前一个消费者购买的产品
的质量,合作仍然可以出现。
产品质量博弈
购买
不购买
高质量 低质量
1,1 -1,2
0,0 0,0
Klein-Leffler Model
? 如果,下列战略组合构成一个精炼纳
什均衡:厂家开始生产高质量;继续生产高质
量,除非曾经生产过低质量;如果上一期生产
了低质量,之后永远生产低质量;消费者:第
一个消费者购买;只要低质量事件没有发生过,
之后的消费者继续购买;但一旦发现低质量,
之后的消费者不再购买;
? 结果:(购买,高质量)
? 解释连锁点
5.0??
社团内的博弈
B
H
E G
F
A C
D
社团内的博弈
B
H
E G
F
A C
D
Third-party enforcement problem
? 如果 A欺骗了 B,其他成员是否应该惩罚
A?
? 如果 C惩罚 A,C就失去了与 A合作的机会,
C为什么要替 B惩罚 A?
社会规范:集体抵制
? Boycott,每个人都应该诚实;都有责任惩
罚骗过人的人;不参与惩罚的人应该受
到惩罚;如:假定 A在 t期欺骗了 B,C在
t+1期就不应该与 B合作,否则,D在 t+2
期就不应该与 C合作;如果 C在 t+1期与 B
合作,而 D在 t+2期又与 C合作,F在 t+3期
就不应该与 D合作,如此等等;
? (美国对不参与伊拉克战争的国家的态度);
敌友规则
? 开始把所有的人当朋友; t期的朋友关系继续保
持到 t+1期,当只当他在 t期不曾骗过任何人并
不曾与你的敌人合作;
? 朋友的朋友是朋友;
? 朋友的敌人是敌人;
? 敌人的朋友是敌人;
? 敌人的敌人未必是朋友。
PNE
? Milgrom,North and Weingast (1990),Econ and
Poli; Kandori (1992),Review of Econ Stud;
Mahoney and Sanchirico (2003),Cal L R;
? 如果每个人的行为是公共信息,合作是一个精
炼纳什均衡。
? 信息问题为理解法律的出现提供了一个原因。
法律机关的一个功能是通过集中化信息使得信
誉机制可以更好得发挥作用。
有限次博弈
? 在前面的完全信息博弈中,只要博弈的
次数是有限的,合作就不会出现。但如
果参与人的类型是不完全信息,只要博
弈进行的足够长,合作仍然可能出现。
信誉的条件
? 重复博弈;
? 足够耐心;
? 相对确定额环境;
? 欺骗可以被观察到;
? 受骗人有积极性惩罚。
眼前利益与长远利益
欺骗
的短
期收

信誉的长期收益
时间
传统社会的个人信誉
? 在传统社会, 人们常年生活在封闭的村庄, 村
民之间彼此非常熟悉, 欺骗行为很容易识别,
人们之间的口头交流足以使任何欺骗行为广为
而知, 每个人的历史都存储在别人的脑海里,
对欺骗行为的惩罚即使不能施加于欺骗者本人,
也可以通过家庭成员而实现, 前面讲的四个条
件基本是可以得到满足 。 因此, 即使没有法律,
村民之间也可以建立起高度的信任, 欺骗行为
很少发生 。
商业社会的问题
? 现在社会被称为, 匿名社会, ( anonymous society),
与乡村社会不同,居民的流动性大,交易双方通常并
不认识,相互之间也缺少如乡村社会中存在的其他制
约关系,使得受害人的惩罚措施受到很大限制;开放
的社会也使得人们较不在乎闲言碎语的议论。凡此种
种,使得传统的以个人为基础的信誉机制失灵,这也
是都市社会犯罪率高的一个重要原因。但是,西方市
场经济只所以能发达到今天的程度,除了较完善的司
法制度之外,是因为他们在更高的形态上复制出了前
面讲的四个条件。