第 7章
不完全信息与声誉
张维迎 教授
北京大学光华管理学院
有限次博弈
? 第 6章证明,只要未来足够重要,合作行
为可以是无限次重复博弈的精炼纳什均
衡。
? 但是,现实中许多博弈是有限次的,不
是无限次的。
? 如果博弈重复的次数是有限的,无论重
复多少次,合作都不会出现。
“连锁店悖论” (chain-store paradox)
? Selten (1978);
进入者
在位者
进入
不进入
默许
斗争
( 40,50)
( -10,0)
( 0,100)
逆向归纳
? 假定在位者有 20个市场。直观告诉我们,
如果进入者在第一个市场进入,在位者
应该选择斗争,因为尽管从一个市场看,
斗争是不值得的,但这样做可以遏止进
入者在其他市场上的进入。
? 唯一的精炼纳什均衡是:进入者总是进
入;在位者总是默许。
Axelrod 实验
? Axelrod( 1981)实验表明:即使在有限
次博弈中,合作行为也频繁出现。
问题在哪里?
? 一个可能的原因在于:我们前面假定不仅参与
人的理性是共同知识,而且每个参与人可以选
择的战略和效用函数都是共同知识。但现实不
是这样。
? 可能性:逆向归纳方法的问题(理性共识);
信息不完全;
? 正如我们前面讨论的谈判情况:如果信息是完
全的,谈判一开始就达成协议,但现实中的谈
判不是这样,原因在于信息不对称。
不完全信息
? KMRW模型( 1982);
? 如果参与人对其他参与人的效用函数和
战略空间的信息不完全,即使博弈重复
的次数是有限的,人们也有积极性建立
一个合作的 声誉 (reputation),合作会出现。
单方不完全信息
? 假定有两个参与人,A和 B,进行囚徒困
境博弈。如下图。
? 参与人 A有两中可能的类型:“非理性”
型:只有一种战略,tit-for-tat (TFT),或
者 grim strategy,概率为 p;,理性”型:可
以选择任何战略,概率为( 1-p);
? 参与人 B有一种类型:理性型。
对“非理性”的解释
? 特殊的成本函数或效用函数;
? 讲义气、重情谊的人;内在化了
reciprocity 社会规范的人;
? 认知问题;
囚徒困境博弈
合作 背叛
合
作
背
叛
3,3 -1,4
4,-1 0,0
A
B
博弈重复两次
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X
背叛 背叛
X 背叛
第 2阶段
? 参与人 A:如果是理性的,选择“背叛”;
如果是非理性的,选择 B在第 1阶段的行
动( X);
? 参与人 B:选择“背叛”。
第 1阶段
? 参与人 A:如果是非理性的,选择“合
作”;如果是理性的,选择“背叛”;
? 参与人 B:如果选择合作,面临被背叛的
风险,但如果 A是非理性的,可以换来第
2阶段的合作。
B在第 2阶段的选择
? 选择合作,期望效用是,
? 3p+(-1)(1-p)+4p+0(1-p)=8p-1
? 如果选择背叛,期望效用函数是,
? 4p+0(1-p)+0=4p
? 最优选择是合作,如果,p>=0.25;
? 结论:如果 B认为 A非理性的概率不小于
0.25,B在第 1阶段会选择合作,即使博弈
只重复两次。
博弈重复 3次
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X
? 背叛
X X
t=3
X
背叛
背叛
参与人 A(理性)的选择
? 如果 A是理性的,在第 2阶段和第 3阶段一定会
选择背叛,但第 1阶段也可能选择合作,因为
建立一个合作的形象可以换取 B在第 2阶段的合
作;
? 如果 p>=0.25,并且 A认为 B在第 1阶段会合作,
给定 A在第 2阶段合作的话 B在在第 2阶段也会
合作,那么 A选择合作得到,3+4+0=5;
? 如果 A选择背叛,得到,4+0+0=4;
? 所以合作是最优的。
参与人 B的选择
? B有四种战略,
– (合作,合作,背叛);
– (合作,背叛,背叛);
– (背叛,背叛,背叛);
– (背叛,合作,背叛)
(合作,合作,背叛)
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=合作
合作 背叛
X=合作 X=合作
t=3
X=合作
背叛
背叛
3+ 3p+(-1)(1-p)+ 4p+0=8p+2 预期效用 ===
(合作,背叛,背叛)
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=合作
合作 背叛
X=合作 X=背叛
t=3
X=背叛
背叛
背叛
3+ 4p+0(1-p)+ 0= 4p+3 预期效用 ===
(背叛,背叛,背叛)
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=背叛
合作 背叛
X=背叛 X=背叛
t=3
X=背叛
背叛
背叛
4+ 0 +0= 4 预期效用 ===
(背叛,合作,背叛)
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=背叛
合作 背叛
X=背叛 X=合作
t=3
X=合作
背叛
背叛
4+ ( -1) +4p+0(1-p)= 4p+3 预期效用 ===
P=1
8p+2 (合作,合作,背叛)
0.2
4p+3 (合作,合作,背叛)
(背叛,合作,背叛)
=4(背叛,背叛,背叛)
结论
? 只要 p>=0.25,下表所列战略组合是一个
精炼纳什均衡,
– 理性型 A在第 1阶段选择合作,然后在第 2和
第 3阶段选择背叛;
– B在第 1和第 2阶段选择合作,然后在第 3阶段
背叛。
精炼纳什均衡
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=合作
合作 背叛
X=合作 X=合作
t=3
X=合作
背叛
背叛
一般结论
? 可以证明:如果博弈重复 T次,只要 p>=0.25,
对于所有的 T>=3,下列战略组合构成一个精炼
纳什均衡:理性型 A在 t=1….T -2阶段选择合作,
在 T-1和 T阶段选择背叛; B在 t=1….T -1阶段选
择合作,在最后阶段 T选择背叛。
? 背叛只在最后两阶段出现。
双方不完全信息
? 在单方不完全信息下,只要 p<0.25,不论
博弈重复多少次,合作都不会出现。
? 但如果双方信息不完全,即使小小的不
确定性也会导致合作行为,只要博弈重
复的次数足够多(但不需要是无限次);
? 原因在于,如果博弈重复的次数足够长,
没有任何一方愿意一开始就把自己的名
声搞坏。
Grim Strategies
? 假定非理性型选择 grim strategy;
? 如果 A在一开始就选择背叛,暴露了自己是非
合作型的,从第 2期开始的唯一的均衡是每个
人都背叛;所以 A的最大预期收益为,
? 4+0+0+…=4;
? 假定选择如下战略:开始选择合作,直到对方
选择不合作,之后永远背叛。最小预期收益是,
? p(3T)+(1-p)(-1+0+0+)=p(3T)-(1-p)
合作条件
? (p)(3T)-(1-p)>=4;
? T*>=(5-p)/p;
? 所以,无论 p多小,只要博弈重复的次数
足够大,一开始就选择背叛不是最优的。
KMRW定理
? 在不完全信息的情况下,只要博弈重复
的次数足够长,参与人就有积极性在博
弈的早期建立一个“合作”的声誉;只
是在博弈的后期,才会选择背叛;并且,
非合作阶段的数量只与 p有关,而与博弈
的次数 T无关。
? 看似不理性的行为其实是理性的;
“大智若愚”
? 应该树立什么样的形象?
? 合作与非合作;
? 强硬与懦弱;
? 对“不理智”(情绪化)行为的新解释;
解开“连锁店悖论”
? Selten (1978);
进入者
在位者
进入
不进入
默许
斗争
( 40,50)
( -10,0)
( 0,100)
声誉的积累
(强硬)
(软弱)(强硬)
(强硬)
斗争)强硬
P
YPXP
XP
P
?
???
?
?
(
举例
? 为什么越有名气的人越在乎自己的声誉?
? (终身教授的激励问题);
? 画家烦恼;
? 政府的声誉;
? (中国与英国有关香港问题的争论);
不完全信息与声誉
张维迎 教授
北京大学光华管理学院
有限次博弈
? 第 6章证明,只要未来足够重要,合作行
为可以是无限次重复博弈的精炼纳什均
衡。
? 但是,现实中许多博弈是有限次的,不
是无限次的。
? 如果博弈重复的次数是有限的,无论重
复多少次,合作都不会出现。
“连锁店悖论” (chain-store paradox)
? Selten (1978);
进入者
在位者
进入
不进入
默许
斗争
( 40,50)
( -10,0)
( 0,100)
逆向归纳
? 假定在位者有 20个市场。直观告诉我们,
如果进入者在第一个市场进入,在位者
应该选择斗争,因为尽管从一个市场看,
斗争是不值得的,但这样做可以遏止进
入者在其他市场上的进入。
? 唯一的精炼纳什均衡是:进入者总是进
入;在位者总是默许。
Axelrod 实验
? Axelrod( 1981)实验表明:即使在有限
次博弈中,合作行为也频繁出现。
问题在哪里?
? 一个可能的原因在于:我们前面假定不仅参与
人的理性是共同知识,而且每个参与人可以选
择的战略和效用函数都是共同知识。但现实不
是这样。
? 可能性:逆向归纳方法的问题(理性共识);
信息不完全;
? 正如我们前面讨论的谈判情况:如果信息是完
全的,谈判一开始就达成协议,但现实中的谈
判不是这样,原因在于信息不对称。
不完全信息
? KMRW模型( 1982);
? 如果参与人对其他参与人的效用函数和
战略空间的信息不完全,即使博弈重复
的次数是有限的,人们也有积极性建立
一个合作的 声誉 (reputation),合作会出现。
单方不完全信息
? 假定有两个参与人,A和 B,进行囚徒困
境博弈。如下图。
? 参与人 A有两中可能的类型:“非理性”
型:只有一种战略,tit-for-tat (TFT),或
者 grim strategy,概率为 p;,理性”型:可
以选择任何战略,概率为( 1-p);
? 参与人 B有一种类型:理性型。
对“非理性”的解释
? 特殊的成本函数或效用函数;
? 讲义气、重情谊的人;内在化了
reciprocity 社会规范的人;
? 认知问题;
囚徒困境博弈
合作 背叛
合
作
背
叛
3,3 -1,4
4,-1 0,0
A
B
博弈重复两次
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X
背叛 背叛
X 背叛
第 2阶段
? 参与人 A:如果是理性的,选择“背叛”;
如果是非理性的,选择 B在第 1阶段的行
动( X);
? 参与人 B:选择“背叛”。
第 1阶段
? 参与人 A:如果是非理性的,选择“合
作”;如果是理性的,选择“背叛”;
? 参与人 B:如果选择合作,面临被背叛的
风险,但如果 A是非理性的,可以换来第
2阶段的合作。
B在第 2阶段的选择
? 选择合作,期望效用是,
? 3p+(-1)(1-p)+4p+0(1-p)=8p-1
? 如果选择背叛,期望效用函数是,
? 4p+0(1-p)+0=4p
? 最优选择是合作,如果,p>=0.25;
? 结论:如果 B认为 A非理性的概率不小于
0.25,B在第 1阶段会选择合作,即使博弈
只重复两次。
博弈重复 3次
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X
? 背叛
X X
t=3
X
背叛
背叛
参与人 A(理性)的选择
? 如果 A是理性的,在第 2阶段和第 3阶段一定会
选择背叛,但第 1阶段也可能选择合作,因为
建立一个合作的形象可以换取 B在第 2阶段的合
作;
? 如果 p>=0.25,并且 A认为 B在第 1阶段会合作,
给定 A在第 2阶段合作的话 B在在第 2阶段也会
合作,那么 A选择合作得到,3+4+0=5;
? 如果 A选择背叛,得到,4+0+0=4;
? 所以合作是最优的。
参与人 B的选择
? B有四种战略,
– (合作,合作,背叛);
– (合作,背叛,背叛);
– (背叛,背叛,背叛);
– (背叛,合作,背叛)
(合作,合作,背叛)
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=合作
合作 背叛
X=合作 X=合作
t=3
X=合作
背叛
背叛
3+ 3p+(-1)(1-p)+ 4p+0=8p+2 预期效用 ===
(合作,背叛,背叛)
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=合作
合作 背叛
X=合作 X=背叛
t=3
X=背叛
背叛
背叛
3+ 4p+0(1-p)+ 0= 4p+3 预期效用 ===
(背叛,背叛,背叛)
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=背叛
合作 背叛
X=背叛 X=背叛
t=3
X=背叛
背叛
背叛
4+ 0 +0= 4 预期效用 ===
(背叛,合作,背叛)
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=背叛
合作 背叛
X=背叛 X=合作
t=3
X=合作
背叛
背叛
4+ ( -1) +4p+0(1-p)= 4p+3 预期效用 ===
P=1
8p+2 (合作,合作,背叛)
0.2
4p+3 (合作,合作,背叛)
(背叛,合作,背叛)
=4(背叛,背叛,背叛)
结论
? 只要 p>=0.25,下表所列战略组合是一个
精炼纳什均衡,
– 理性型 A在第 1阶段选择合作,然后在第 2和
第 3阶段选择背叛;
– B在第 1和第 2阶段选择合作,然后在第 3阶段
背叛。
精炼纳什均衡
t=1 t=2
A
非理性 (p)
理性型 (1-p)
B (理性型 )
合作 X=合作
合作 背叛
X=合作 X=合作
t=3
X=合作
背叛
背叛
一般结论
? 可以证明:如果博弈重复 T次,只要 p>=0.25,
对于所有的 T>=3,下列战略组合构成一个精炼
纳什均衡:理性型 A在 t=1….T -2阶段选择合作,
在 T-1和 T阶段选择背叛; B在 t=1….T -1阶段选
择合作,在最后阶段 T选择背叛。
? 背叛只在最后两阶段出现。
双方不完全信息
? 在单方不完全信息下,只要 p<0.25,不论
博弈重复多少次,合作都不会出现。
? 但如果双方信息不完全,即使小小的不
确定性也会导致合作行为,只要博弈重
复的次数足够多(但不需要是无限次);
? 原因在于,如果博弈重复的次数足够长,
没有任何一方愿意一开始就把自己的名
声搞坏。
Grim Strategies
? 假定非理性型选择 grim strategy;
? 如果 A在一开始就选择背叛,暴露了自己是非
合作型的,从第 2期开始的唯一的均衡是每个
人都背叛;所以 A的最大预期收益为,
? 4+0+0+…=4;
? 假定选择如下战略:开始选择合作,直到对方
选择不合作,之后永远背叛。最小预期收益是,
? p(3T)+(1-p)(-1+0+0+)=p(3T)-(1-p)
合作条件
? (p)(3T)-(1-p)>=4;
? T*>=(5-p)/p;
? 所以,无论 p多小,只要博弈重复的次数
足够大,一开始就选择背叛不是最优的。
KMRW定理
? 在不完全信息的情况下,只要博弈重复
的次数足够长,参与人就有积极性在博
弈的早期建立一个“合作”的声誉;只
是在博弈的后期,才会选择背叛;并且,
非合作阶段的数量只与 p有关,而与博弈
的次数 T无关。
? 看似不理性的行为其实是理性的;
“大智若愚”
? 应该树立什么样的形象?
? 合作与非合作;
? 强硬与懦弱;
? 对“不理智”(情绪化)行为的新解释;
解开“连锁店悖论”
? Selten (1978);
进入者
在位者
进入
不进入
默许
斗争
( 40,50)
( -10,0)
( 0,100)
声誉的积累
(强硬)
(软弱)(强硬)
(强硬)
斗争)强硬
P
YPXP
XP
P
?
???
?
?
(
举例
? 为什么越有名气的人越在乎自己的声誉?
? (终身教授的激励问题);
? 画家烦恼;
? 政府的声誉;
? (中国与英国有关香港问题的争论);