第十章 博弈论第一节 博弈论基础一、博弈论( Game Theory)
博弈论研究决策主体的行为相互发生直接作用时的决策,以及这种决策的均衡问题。也就是说,一个主体(一个人或一个企业)的选择受到其他主体选择的影响,并且其选择反过来会影响到其他主体的选择,这类的的决策问题和均衡问题就是博弈论研究的对象。在这个意义上说,博弈论也称为“对策论”。
博弈论中的个体决策与传统经济学中的行为个体决策不同。
二、博弈论的基本概念
1、参与者 /局中人( players),在博弈中选择行动以最大化自己效用的决策主体。
2、行动( acttions,moves),参与者的决策变量。
3、战略( strategies),参与者选择行动的规则。
4、信息( information),是参与人在博弈中的知识,特别是有关其他参与人 (对手 )的特征和行动的知识。
5、支付 /收益( payoff),是参与人从博弈中获得的效用水平,是所有参与人战略或行动的函数,也是是每个参与人真正关心的东西。
6、结果( outcomes),是指博弈分析者感兴趣的要素的集合。
7、均衡( equilibrium),是所行参与人的最优战略或行动的组合。
上述概念中,参与人、行动、结果统称为博弈规则,博弈分析的目的是使用博弈规则决定均衡。
三、博弈的分类
1、合作博弈( cooperative game)和非合作博弈( non- cooperative game ):
人们的行为相互作用时,当事人能不能达成一个具有约束力的协议,如果有,就是合作博弈;反之,则是非合作博弈。
现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈。
2、静态博弈( static game)与动态博弈( dynamic game):
按参与人行动的先后顺序划分,静态博弈,参与者同时决策,或非同时决策但后决策者不知道先决策者的行动。 动态博弈,参与者的行动有先后,
后决策者能观察到县决策者的行动,并据此选择行动。
3、完全信息博弈( games of complete information)和不完全信息博弈
( games of incomplete information ):
完全信息指的是每一个参与人对所有其他参与人 (对手 )的特征、战略空间及支付函数有准确的知识;否则,就是不完全信息。
第二节 完全信息静态博弈一、博弈的标准式( nomal form representation)
例:囚徒困境。 囚徒面临的问题可用下图所示的双变量矩阵表来描述。
-1,-1 -9,0
0,-9 -6,-6
囚犯 B
囚犯 A
沉默 招认沉默招认在此博弈中,每一囚徒有两种战略可供选择:招认、
沉默 )。
在一组特定的战略组合被选定后,两人的收益由矩阵中相应单元的数据来表示。
博弈的标准表述包括,(1)博弈的参与者,(2)每一参与者可供选择的战略集,(3)针对所有参与者可能选择的战略组合,每一个参与者获得的收益。
可以用支付矩阵表述一个博弈。
假定有 n个参与者参加博弈,序号分别为 1,2,…,n,第 i个参与者可以选择的战略集合( i的战略空间)为 Si,每个具体的战略 si为 Si 的元素。令
( s1,s2,…,sn)为每个参与人选定一个战略的组成的战略组合,ui表示在该战略组合下参与人 i的收益收益函数,ui( s1,s2,…,sn ),表述的标准形式为:
nn uuSSG,,;,,11
二、占优战略均衡( Dominant-stragety equilibrium)
一般来说,由于每个参与者的效用(支付)是博弈中所有参与人的战略的函数,因此每个参与者的最优战略选择依赖于所有其他参与人的战略选择。但在 —些特殊的博弈中,一个参与人的最优战略可能并不依赖于其他参与人的战略选择,就是说,不论其他参与人选择什么战略,他的最优战略是唯一的,这样的最优战略被称为“占优战略”( dominant stragety)。
的严格占优战略。是局中人相对于)均成立,则称合(中每一种可能的战略组间对其他局中人的战略空
)()(
,即的收益都大于于战略选择,战略对于其他局中人的任一的两个战略,如果为参与者,中,假定在博弈
issss
ssSSSS
sssssusssssu
ss
issuuSSG
iini
inii
niiiiniiii
ii
iinn
"',
,,,,,,,
,,",,,,,',,,
"'
"',,;,,
1
11111
111111
11
三、重复剔除严格劣战略均衡( interated dominance equilibrium)
在每个参与人都有占优战略的情况下,占优战略均衡是一个非常合理的预测,但在绝大多数博弈中,不存在占优战略均衡。
在囚徒困境中,“招认”是每个囚犯的占优战略。博弈的结果是两人都选择“招认”,尽管福利不是最大。 -1,-1 -9,0
0,-9 -6,-6
囚犯 B
囚犯 A
沉默 招认沉默招认占优战略均衡:
略均衡。
)称为占优战组合(的占优战略,那么战略均为参与者,中,对于所有参与人在博弈
niii
inn
sssss
isiuuSSG
*,,*,*,*,,*
*,,;,,
111
11
小猪大猪按 等待按等待
3,1 2,4
7,-1 0,0
考虑下面的“智猪博弈”。两猪共槽吃食,按下在房间另一端的按钮,能出食 8单位,按下按钮者将付出 2单位的代价。若大猪先到食槽,能吃到 7单位的食,小猪只能吃到 1单位的食;若小猪先到食槽,能吃到 4
单位的食,大猪能吃到 4单位的食。
的严格劣战略。是局中人相对于)均成立,则称合(中每一种可能的战略组间对其他局中人的战略空
)()(
,即的收益都小于任一战略选择,战略如果对于其他局中人的的两个战略,为参与者,中,假定在博弈
isssss
sSSSS
sssssusssssu
ss
issuuSSG
iinii
nii
niiiiniiii
ii
iinn
"',,,,
,,,,,
,,",,,,,',,,
"'
"',,;,,
11
1111
111111
11
如果把,理性的参与者不会选择严格劣战略” 作为局中人的理性假设,并且局中人的理性是博弈中的 共同知识,则可以通过 重复剔除严格劣战略 来选择均衡。
小猪大猪按 等待按等待
3,1 2,4
7,-1 0,0
在此博以中,小猪的占优战略为“等待”,
而大猪不存在占优战略。此时,不存在占优战略均衡。
严格劣战略:
在智猪博弈中,“按”是小猪的严格劣战略,
理性的小猪不会选择“按”;而大猪知道小猪是理性的,不会选择“按”。因此,博弈就变成右边的形式。
显然,“等待”是大猪的严格劣战略,大猪不会选择“不按”。(按,等待)为均衡结果。
小猪大猪等待按等待
2,4
0,0
考虑下面的博弈:局中人 A的战略空间为(上,下)、局中人 B的战略空间为(坐,中,右),收益矩阵如下:
1,0 1,2 0,1
0,3 0,1 2,0
局中人 B
局中人
A
左 中上下右
―右”是 B的相对于“中”的严格劣战略。 理性的 B不会选择“右”,
而理性的 A也知道 B不会选择“右”,
博弈就变为:
1,0 1,2
0,3 0,1
局中人 B
局中人
A
左 中上下此时,“下”是 A的相对于“上”的严格劣战略。 理性的 A不会选择“下”,而理性的 B
也知道 A不会选择“下”,博弈就变为:
1,0 1,2
局中人 B
局中人
A
左 中上此时,“左”是 B的相对于“中”的严格劣战略。 理性的 B不会选择“下”,
而理性的 A也知道 B不会选择“下”,博弈的结果就是,(上,中)。
上面的过程可称为,重复剔除严格劣战略,,得到的唯一均衡为 重复剔除严格劣战略均衡 。
尽管“重复剔除严格劣战略” 的过程建立在理性参与人不会选择严格劣战略这一合情近理的原则之上,它仍有两个缺陷:
第一,每一步剔除都需要参与者间相互了解的更进一步假定,如果我们要把这一过程应用到任意多步,就需要假定“参与者是理性的,共同知识”( common knowledge,是与信息有关的一个重要概念。共同知识指的是“所有参与人知道,所有参与人知道所有参与人知道,所有参与人知道所有参与人知道所有参与人知道 ……‖ 的知识)。
0,4 4,0 5,3
4,0 0,4 5,3
3,5 3,5 6,6
局中人 B
局中人
A
左 中上中右下第二,这一方法对博弈结果的预测经常是不精确的。例如,在下面的博弈中,就没有可以剔除的严格劣战略。
四、纳什均衡( Nash equilibrium)
设想在博弈论预测的博弈结果中,为使该预测是正确的,局中人 自愿选择的战略 必须是 理论给他推导出的战略 。这样,每个局中人要选择的战略必须是针对其他参与者选择战略的 最优战略 。这种理论推测结果可以叫做“战略稳定”或“自动实施”的,因为没有参与人愿意独自离弃他所选定的战略,我们把这一状态称为 纳什均衡 。
)(
:是以下最优化问题的解即什均衡。
)是该博弈的一个纳(均成立,则称战略组合对所有
)()(
)的最优反应战略,即(
他局中人选择战略是(至少不劣于)对其,战略满足对任一局中人
)中,如果战略组合(人博弈在
niiii
i
nii
niiiiniiii
nii
i
nnn
ssssssu
s
sssSs
ssssssussssssu
sssss
si
sssuuSSGn
*,,*,,*,,*,*m ax
*
*,,*,*
*,,*,,*,,*,**,,*,*,*,,*,*
*,,*,*,,*,*
*
*,,*,*,,;,,
1121
21
11211121
1121
2111
0,4 4,0 5,3
4,0 0,4 5,3
3,5 3,5 6,6
局中人 B
局中人
A
左 中上中右下在右边的博弈中,
对于 A选择“上”时,B的最优战略为“左”;
对于 A选择“中”时,B的最优战略为“中”;
对于 A选择“下”时,B的最优战略为“右”;
对于 B选择“左”时,A的最优战略为“中”;
对于 B选择“中”时,A的最优战略为“上”;
对于 B选择“右”时,A的最优战略为“下”;
(下,右)满足纳市均衡的条件。
-6,-60,-9
-9,0-1,-1
囚犯 B
囚犯 A
沉默 招认沉默招认
(招认,招认) 是重复剔除严格劣战略均衡。
(招认,招认) 是纳什均衡。
纳什均衡和重复剔除严格劣战略均衡的关系,如果用重复剔除严格劣战略把除战略组合 外所有的战略组合都剔除掉,则该所存战略组合就是此博弈惟一的纳什均衡。 )( nsss *,,*,* 21?
由于重复剔除严格劣战略并不一定会只剩下惟一的战略组合,作为解的概念,纳什均衡比重复剔除严格劣战略更强。
下面的例子表明一个博弈可以有多个纳什均衡。
1,20,0
0,02,1
女男歌剧 拳击歌剧拳击性别博弈 (歌剧,歌剧 )和 (拳击,拳击 )都是纳什均衡。
五、几个命题的纳什均衡。略组合是该博弈中唯一合,则这一战)外的所有其他战略组剔除掉除战略组合(
劣战略中,如果重复剔除严格人博弈在命题一:
n
nn
sss
uuSSGn
*,,*,*
,,;,,
21
11
劣战略中被剔除。
合不会在重复剔除严格什均衡,则这一战略组)是该博弈中唯一的纳中,战略组合(人博弈如果在命题二:
n
nn
s
ssuuSSGn
*
,,*,*,,;,,2111
―斗鸡博弈”也有多个纳什均衡。
1,古诺的双头垄断模型六、应用举例假定:双头垄断,非勾结,产量竞争; 同质产品,生产的边际成本为 0;
市场需求为线性需求曲线,P = a – b Q = a – b (q1 + q2 ) ;
决策:假定对方不改变产量决策,追求利润最大化。
化为标准形式:
参与人:厂商 1、厂商 2
),0[),,0[ 2211 SqSq ii战略集:
收益:企业的收益就是其利润额,这样在一般的两个参与者标准式博弈中,参与者 1的收益分别为:
22122212
2
1211211
2
1
)()()(
)()()(
bqqbqaqCqqqba
bqqbqaqCqqqba
每个厂商要选择的战略必须是针对其他参与者选择战略的最优战略,
因而两个厂商各自的反应函数就是其 最优反应 。
两个厂商的反应函数:
22)(,22)(
11222211 q
b
aqqqq
b
aqqq
根据纳什均衡的定义,博弈的均衡解( q*1,q*2 )必须同时满足两个反应函数:
3
)**(*
3
2
***
{
3
1
*
3
1
*
{
2
*
2
*
2
*
2
*
{
21
21
2
1
1
2
2
1
a
qqbaP
b
a
qqQ
b
a
q
b
a
q
q
b
a
q
q
b
a
q
2,公地的悲剧有 n户村民的村庄,每年在村庄公共牧场上放牧羊只。以 gi表示第 i户村民放牧的羊数,全村牧羊总数 G = g1+ g2+…+ g n。假定购买和照看每只羊的成本为 c,
c不随意户村民拥有的羊的数目而变化。当草地上羊的总数为 G时,一户村民养一只羊的价值为 v(G)。由于一只羊要生存,至少需要一定数量的青草,草地可以放牧的羊的总数优一个上限 Gmax:当 G< Gmax时,v(G)>0,而当 G≥ Gmax时,
v(G)=0。此外,假定在最初,由于优足够的放牧空间,增加一只羊不会对已经放养的洋产生太大影响,而随着羊的增加,所有羊只的价值将受到影响越来越大,到当 G = Gmax时,每只羊的价值为 0,即:< Gmax时,v’(G) < 0,v‖(G) < 0,
如下图所示:
Gmax G
v(G)
O
这里假定羊是连续可分的,每年初,各户村民决定养殖羊的数目 gi。
在此博弈中,参与人为 n户村民,每户村民的战略就是其决定养殖羊的数目 gi,战略空间为 [0,∞),而收益为:
iniiii
iii
cggggggvg
cgGvg
)(
)(
111
如果( g*1,…,g* n)为纳什均衡,则对于村民 i,当其他村民选择战略
( g*1,…,g* i-1,g*i+1,…,g* n)时,其最优战略应是使其收益最大的战略:
i
i
niii
i
iniiiii
g
gG
ggggg
n
n
cGvgGv
cggggggvg
i
**
)*,,*,*,*,,*(
:
0*)('*)(
,
)****(m ax
111
111
),0[
:纳什均衡的总饲养量为
,可得到纳什均衡解户村民的反映函数联立把户村民的反应函数。户村民的一阶条件为各根据一阶条件
)*)('
*
(*)(,0*)('
*
*)(
0*)('**)(
cGv
n
G
GvcGv
n
G
Gv
cnGvgGvn
n
n
i
i
,可得户村民的一阶条件加总把第一项为每户村民每头羊的边际收益,第二、三项为对村民而言每增加一头羊的边际成本。
从村民的反应函数可看出,尽管每户村民在决定增加饲养量时考虑了对现有羊的价值的负效应,但他考虑的只是对自己羊的影响,而并不是对所有羊的影响。因此,最优点上个人边际成本小于社会边际成本,纳什均衡的总饲养量大于社会最优的饲养量。
从整个村庄的最优选择考虑,最优的总饲养数 G**优以下最优化问题解出:
cGvGGv
cGvGGv
cGGvG
G
*)*('***)*(
0*)*('***)*(
,
)(m a x
),0[
根据一阶条件与纳什均衡结果相比较:
***0)('
*)*(*)(
)(')(')]('[])('[,
*)('
*
*)(
GGGv
GvGv
cGvGcGv
n
G
GvGGv
n
G
G
n
G
cGv
n
G
Gv
由于由于
,即公共资源被过渡使用了。
第三节 完全信息动态博弈在静态博弈中,所有参与人同时行动 (或行动虽有先后,但没有人在自己行动之前观测到别人的行动。在动态博弈中,参与人的行动有先后顺序,
且后行动者在自己行动之前能观测到先行动吉的行动。动态博弈常用扩展式表述。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
考虑右边以博弈树描述的两阶段博弈。在某产品市场上,厂商 A和 B对是否进入该市场进行决策。
A是先行动者,B在观察了 A的行动后,决定自己的行动。
如果市场中只有一个厂商,则该厂商得到全部 1个单位的收益。不进入市场的厂商收益为零。如果市场中有两个厂商,则各得到 -3单位的收益。
一、博弈的扩展式( extentive form representation)
一个 博弈的扩展式表述包括,
(1)参与人( players) ;
( 2)行动( actions)
(2a)每一参与者的行动 (the order of actions);
(2b)每次轮到某一参与者行动时,他的行动空间( action sets);
(2c)每次轮到某一参与者行动时,他所了解的信息集( information sets) ;
(3)与参与者可能选择的每一行动组合相对应的各个参与者的收益 。
完全(且完美)信息动态博弈的主要特点是,(i)行动是顺序发生的,
(ii)下一步行动选择之前,所有以前的行动都可被观察到,及 (iii)每一可能的行动组合下参与者的收益都是共同知识。
二、博弈树( game tree)
博弈树由结( nodes)、枝( branches)、信息集( information set)构成。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
1.结 (nodes):结包括决策结 (decition
nodes)和终点结 (terminal nodes)两类。
决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。
在博弃树中,“谁在什么时候行动”用在决策结旁边标注参与人的办法来表示。参与人的支付标注在博弈树终点结处。
2.枝 (branches),在博弈树上,枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。 3.信息集 (information sets),博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集。该子集包括所有满足下列条件的决策结,(1)每一个决策结都是轮到同一参与人的决策结; (2)该参与人知道博弈进入该集合的的某个决策结,但不知道自己究竟处于哪一个决策结。
如果参与人在每一步行动中,都知道前面博弈进行的全过程,则其信息集是单结的,此时,信息是完美的( perfect information)。相反,信息是非完美的( imperfect information)。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
在右边的博弈中,A是先行动者,其信息集为初始结( initial node),为单结信息集。
在 A行动以后,轮到 B行动时,
如果 B知道 A的行动,如 A选择“进入”,则其信息及是单结的(结点
1)。如果 B不知道 A的行动,则 B的信息集包括结点 1和结点 2,而 B不知道自己在其中的哪个结点上。
在非完美信息条件下,该两阶段博弈其实就是一个完全信息静态博弈。
1
2
在当然,动态博弈也可以用标准式来表述。引入信息集的概念后,也可以用扩展式表述静态博弈。
在市场进入博弈中,A有两个行动,“进入”、“不进入”。由于是先行动者,只有 两个战略,选择“进入”或“不进入”。
B有两个行动,“进入”、“不进入”。
但是,有 4个战略,
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
(1)若 A选择“进入”,B选择“进入”,
若 A选择“不进入”,B选择“进入”,
即
(进入,进入)
(2)若 A选择“进入”,B选择“进入”,
若 A选择“不进入”,B选择“不进入”,即
(进入,不进入)
1
2
(3)若 A选择“进入”,B选择“不进入”,若 A选择“不进入”,B选择
“不进入”,即
(不进入,进入)
(4)若 A选择“进入”,B选择“不进入”,若 A选择“不进入”,B选择
“不进入”,即根据 A,B的战略空间,可以用标准式表述该博弈。
三、博弈的标准式表述与扩展式表述
-3,-3 -3,-3 1,0 1,0
0,1 0,0 0,1 0,0
A
B
(进入,进入)
进入不进入
(进入,不进入) (不进入,进入) (不进入,不进入)
市场进入博弈的标准式,
沉默招认
A
B
B
沉默招认招认沉默收益:
A B
-1,-1
-9,0
0,-9
-6,-6
1)参与人,A,B
2)行动顺序;
A的行动空间:(,沉默”、“招认”)、
B的行动空间:(,沉默”、“招认”);
A的信息集,( 初结点)、
B的信息集,( 结点 1,结点 2 );
3)支付。
1
2
囚徒博弈的扩展式(非完美信息博弈):
四、子博弈,子博弈精炼纳什均衡
1、子博弈子博弈是原博弈的一部分,它本身可以作为一个独立的博弈进行分析。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B-3,-3
1,0
0,1
0,0
沉默招认
A
B
B
沉默招认招认沉默
-1,-1
-9,0
0,-9
-6,-6
子博弈的定义,一个扩展式博弈中的子博弈,a)由具有单结信息集的决策结 n开始,并包括博弈树中该决策结以下的所有决策结和终点结,并且 b)没有对任何信息集形成分割(即如果博弈树中 n之下有一个决策结 n’,
则和 n’处于同一信息集的其他决策集结也必须在 n之下,从而也必须包含于子博弈中。 )
在市场进入博弈中,包含 3个子博弈(包括原博弈)。而在囚徒博弈中,只有一个子博弈(?)。
2、子博弈精炼纳什均衡考虑市场进入博弈的纳什均衡。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
-3,-3 -3,-3 1,0 1,0
0,1 0,0 0,1 0,0
A
B
(进入,进入)
进入不进入
(进入,不进入) (不进入,进入) (不进入,不进入)
该博弈中有三个纳什均衡:
不进入,(进入,进入)
进入,(不进入,进入)
进入,(不进入,不进入)
前两个均衡的结果是 (进入,不进入 ),
即 A进入,B不进入; 第二个均衡的结果是 (不进入,进入 ),即 A不进入,B进入。
如果理论得到这样的结果,无助于预测博弈参与人的行为。此外,纳什均衡假定,每一个参与人选择的最优战略是在所有其他参与人的战略选择给定时的最优反应,即参与人并不考虑自己的选择对其他人选择的影响,因而纳什均衡很难说是动态博弈的合理解。
因此,必须在多个纳什均衡中剔除不合理的均衡解,即所谓“不可置信威胁”。 子博弈精炼纳什均衡 是对纳什均衡概念的最重要的改进。它的目的是把动态博弈中的“合理纳什均衡”与“不合理纳什均衡”分开。正如纳什均衡是完全信息静态博弈解的基本慨念一样,子博弈精炼纳什均衡是完全信息动态博弈解的基本概念。
① {不进入,(进入,进入) }
② {进入,(不进入,进入) }
③ {进入,(不进入,不进入) } 进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
前边得到的三个纳什均衡中,均衡①意味着当 A不进入时,B选择进入;而当 A选择进入时,
B仍选择进入( B威胁无论如何都要进入市场)。
显然,当 A选择进入时,B仍选择进入 是不合理的,如果 A进入市场,
B选择“不进入”比选择“进入”收益要更大,理性的 B不会选择进入,
而 A知道 B是理性的,因此也不会把该战略视为 B会选择的战略。因此,B
的战略(进入,进入)是不可置信威胁 。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
均衡③意味着当 A进入时,B选择不进入;而当 A选择不进入时,B仍选择进入( B
威胁无论如何都不进入市场)。显然,当 A
选择进入时,B仍选择进入 是 不合理 的,B的战略是不可置信威胁 。
① {不进入,(进入,进入) }
② {进入,(不进入,进入) }
③ {进入,(不进入,不进入) }
只有均衡 ②是合理的:如果 A进入,B不进入;如果 A不进入,B进入。
因为 A是先行动者,理性的 A会选择“进入”(他知道 B是理性的,B不会选择“进入”),而理性的 B选择“不进入”。
观察博弈树上的三个均衡中,B的不可置信战略中的反应,在第二阶段 B开始行动的两个子博弈中不是最优;而合理的纳什均衡中,B的战略在所有子博弈中都是最优的,与 A的第一阶段可能选择的行动构成该子博弈的纳什均衡。
①
②
③
①
②
③
因此,只有当一个战略规定的行动规则在所有可能的情况下都是最优的时,它才是一个合理的、可置信的战略。子博弈精炼纳什均衡就是要剔除掉那些只在特定情况下是合理的而在其他情况下并不合理的行动规则。
子博弈精炼纳什均衡,如果参与者的战略在每一个子博弈中都构成了纳什均衡,则称纳什均衡是子博弈精练的 (泽尔滕,1965) 。
为简单起见,假定博弈有两个阶段,第一阶段参与人 1行动,第 2阶段参与人 2行动,并且 2在行动前观测到 1的选择。令 A1是参与人 1的行动空间,A2是参与人 2的行动空间。当博弈进入第二阶段,给定参与人 1在第一阶段的选择为 a1∈ A1,参与人 2面临的问题是:
),( 21m a x
22
aau
Aa?
显然参与人 2的最优选择 a2*依赖于参与人 1的选择 a1。用 a2*= R(a1)代表上述最优化问题的解 (即 2的反应函数 )。因为参与人 1应该预测到参与人
2在博弈的第二阶段将按 a2*= R(a1)的规则行动,参与人 1在第一阶段面临的问题是:
))(,( 11m a x
11
aRau
Aa?
令上述问题的最优解为 a1*。那么,这个博弈的子博弈精炼纳什均衡为 {a1*,R2(a1)},均衡结果为 {a1*,R2(a1*)}。 (a1*,R2(a1*))是一个精炼均衡,
因为 a2*= R2(a1)在博弈的第二阶段是最优的。除 a2*= R2(a1)之外,任何其他的行为规则都不满足精练均衡的要求。
上述思路就是 逆向归纳法 寻找子博弈精炼纳是均衡的基本思路。
3、逆向归纳法( rollback,
backward induction)
逆向归纳法求解子博弈精炼纳什均衡的过程,实质是重复剔除劣战略过程在扩展式博弈上的扩展:从最后一个决策结开始依次剔除掉每个子博弈的劣战略,最后生存下来的战略构成精炼纳什均衡。如同重复剔除的占优均衡要求“所有参与人是理件的”
是共同知识一样,用逆向归纳法求解均衡也要求“所行参与人是理性的”
是共同知识。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
{进入,(不进入,进入) }
五、应用举例:斯泰伯格模型假定:双头垄断,非勾结,同时决策;产量竞争; 同质产品,生产的边际成本为常数 c;市场需求为线性需求曲线,P = a – b Q = a – b (q1 + q2 ) 。
在决策过程中,先决策者在考虑对手可能的决策结果的基础上,确定自己的产量;后决策者在观察对手的决策以后,确定自己的产量。
22212
11211
)]([
)]([
cqqqqba
cqqqqba
两个企业的行动空间分别为 A1=[0,∞),A2=[0,∞)
博弈的时间顺序如下,(1)企业 1选择产量 q1; (2)企业 2观测到 q1,然后选择产量 q2; (3)企业的收益由下面的利润函数给出:
为解出这一博弈的逆向归纳解,我们首先计算企业 2对企业 1任意产量的最优反应 R2(a1),应满足:
22212 )]([m a x
22
cqqqqba
Aq
可得到 2的反应函数:
22 12
q
b
caq
企业 1也必须像 2一样做出最优反应:
11112 ) ) ](([m a x
11
cqqqRqba
Aq
因此,企业 1的最优行动为:
b
caq
2*1
而企业 2的最优行动为:
b
caq
b
caq
422*
1
2
在此博弈中,子博弈精炼纳什均衡解为,*)*,(
21 qq
而子博弈精炼纳什均衡为,)
22*,())(*,( 1111
q
b
caqqRq,即
博弈论研究决策主体的行为相互发生直接作用时的决策,以及这种决策的均衡问题。也就是说,一个主体(一个人或一个企业)的选择受到其他主体选择的影响,并且其选择反过来会影响到其他主体的选择,这类的的决策问题和均衡问题就是博弈论研究的对象。在这个意义上说,博弈论也称为“对策论”。
博弈论中的个体决策与传统经济学中的行为个体决策不同。
二、博弈论的基本概念
1、参与者 /局中人( players),在博弈中选择行动以最大化自己效用的决策主体。
2、行动( acttions,moves),参与者的决策变量。
3、战略( strategies),参与者选择行动的规则。
4、信息( information),是参与人在博弈中的知识,特别是有关其他参与人 (对手 )的特征和行动的知识。
5、支付 /收益( payoff),是参与人从博弈中获得的效用水平,是所有参与人战略或行动的函数,也是是每个参与人真正关心的东西。
6、结果( outcomes),是指博弈分析者感兴趣的要素的集合。
7、均衡( equilibrium),是所行参与人的最优战略或行动的组合。
上述概念中,参与人、行动、结果统称为博弈规则,博弈分析的目的是使用博弈规则决定均衡。
三、博弈的分类
1、合作博弈( cooperative game)和非合作博弈( non- cooperative game ):
人们的行为相互作用时,当事人能不能达成一个具有约束力的协议,如果有,就是合作博弈;反之,则是非合作博弈。
现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈。
2、静态博弈( static game)与动态博弈( dynamic game):
按参与人行动的先后顺序划分,静态博弈,参与者同时决策,或非同时决策但后决策者不知道先决策者的行动。 动态博弈,参与者的行动有先后,
后决策者能观察到县决策者的行动,并据此选择行动。
3、完全信息博弈( games of complete information)和不完全信息博弈
( games of incomplete information ):
完全信息指的是每一个参与人对所有其他参与人 (对手 )的特征、战略空间及支付函数有准确的知识;否则,就是不完全信息。
第二节 完全信息静态博弈一、博弈的标准式( nomal form representation)
例:囚徒困境。 囚徒面临的问题可用下图所示的双变量矩阵表来描述。
-1,-1 -9,0
0,-9 -6,-6
囚犯 B
囚犯 A
沉默 招认沉默招认在此博弈中,每一囚徒有两种战略可供选择:招认、
沉默 )。
在一组特定的战略组合被选定后,两人的收益由矩阵中相应单元的数据来表示。
博弈的标准表述包括,(1)博弈的参与者,(2)每一参与者可供选择的战略集,(3)针对所有参与者可能选择的战略组合,每一个参与者获得的收益。
可以用支付矩阵表述一个博弈。
假定有 n个参与者参加博弈,序号分别为 1,2,…,n,第 i个参与者可以选择的战略集合( i的战略空间)为 Si,每个具体的战略 si为 Si 的元素。令
( s1,s2,…,sn)为每个参与人选定一个战略的组成的战略组合,ui表示在该战略组合下参与人 i的收益收益函数,ui( s1,s2,…,sn ),表述的标准形式为:
nn uuSSG,,;,,11
二、占优战略均衡( Dominant-stragety equilibrium)
一般来说,由于每个参与者的效用(支付)是博弈中所有参与人的战略的函数,因此每个参与者的最优战略选择依赖于所有其他参与人的战略选择。但在 —些特殊的博弈中,一个参与人的最优战略可能并不依赖于其他参与人的战略选择,就是说,不论其他参与人选择什么战略,他的最优战略是唯一的,这样的最优战略被称为“占优战略”( dominant stragety)。
的严格占优战略。是局中人相对于)均成立,则称合(中每一种可能的战略组间对其他局中人的战略空
)()(
,即的收益都大于于战略选择,战略对于其他局中人的任一的两个战略,如果为参与者,中,假定在博弈
issss
ssSSSS
sssssusssssu
ss
issuuSSG
iini
inii
niiiiniiii
ii
iinn
"',
,,,,,,,
,,",,,,,',,,
"'
"',,;,,
1
11111
111111
11
三、重复剔除严格劣战略均衡( interated dominance equilibrium)
在每个参与人都有占优战略的情况下,占优战略均衡是一个非常合理的预测,但在绝大多数博弈中,不存在占优战略均衡。
在囚徒困境中,“招认”是每个囚犯的占优战略。博弈的结果是两人都选择“招认”,尽管福利不是最大。 -1,-1 -9,0
0,-9 -6,-6
囚犯 B
囚犯 A
沉默 招认沉默招认占优战略均衡:
略均衡。
)称为占优战组合(的占优战略,那么战略均为参与者,中,对于所有参与人在博弈
niii
inn
sssss
isiuuSSG
*,,*,*,*,,*
*,,;,,
111
11
小猪大猪按 等待按等待
3,1 2,4
7,-1 0,0
考虑下面的“智猪博弈”。两猪共槽吃食,按下在房间另一端的按钮,能出食 8单位,按下按钮者将付出 2单位的代价。若大猪先到食槽,能吃到 7单位的食,小猪只能吃到 1单位的食;若小猪先到食槽,能吃到 4
单位的食,大猪能吃到 4单位的食。
的严格劣战略。是局中人相对于)均成立,则称合(中每一种可能的战略组间对其他局中人的战略空
)()(
,即的收益都小于任一战略选择,战略如果对于其他局中人的的两个战略,为参与者,中,假定在博弈
isssss
sSSSS
sssssusssssu
ss
issuuSSG
iinii
nii
niiiiniiii
ii
iinn
"',,,,
,,,,,
,,",,,,,',,,
"'
"',,;,,
11
1111
111111
11
如果把,理性的参与者不会选择严格劣战略” 作为局中人的理性假设,并且局中人的理性是博弈中的 共同知识,则可以通过 重复剔除严格劣战略 来选择均衡。
小猪大猪按 等待按等待
3,1 2,4
7,-1 0,0
在此博以中,小猪的占优战略为“等待”,
而大猪不存在占优战略。此时,不存在占优战略均衡。
严格劣战略:
在智猪博弈中,“按”是小猪的严格劣战略,
理性的小猪不会选择“按”;而大猪知道小猪是理性的,不会选择“按”。因此,博弈就变成右边的形式。
显然,“等待”是大猪的严格劣战略,大猪不会选择“不按”。(按,等待)为均衡结果。
小猪大猪等待按等待
2,4
0,0
考虑下面的博弈:局中人 A的战略空间为(上,下)、局中人 B的战略空间为(坐,中,右),收益矩阵如下:
1,0 1,2 0,1
0,3 0,1 2,0
局中人 B
局中人
A
左 中上下右
―右”是 B的相对于“中”的严格劣战略。 理性的 B不会选择“右”,
而理性的 A也知道 B不会选择“右”,
博弈就变为:
1,0 1,2
0,3 0,1
局中人 B
局中人
A
左 中上下此时,“下”是 A的相对于“上”的严格劣战略。 理性的 A不会选择“下”,而理性的 B
也知道 A不会选择“下”,博弈就变为:
1,0 1,2
局中人 B
局中人
A
左 中上此时,“左”是 B的相对于“中”的严格劣战略。 理性的 B不会选择“下”,
而理性的 A也知道 B不会选择“下”,博弈的结果就是,(上,中)。
上面的过程可称为,重复剔除严格劣战略,,得到的唯一均衡为 重复剔除严格劣战略均衡 。
尽管“重复剔除严格劣战略” 的过程建立在理性参与人不会选择严格劣战略这一合情近理的原则之上,它仍有两个缺陷:
第一,每一步剔除都需要参与者间相互了解的更进一步假定,如果我们要把这一过程应用到任意多步,就需要假定“参与者是理性的,共同知识”( common knowledge,是与信息有关的一个重要概念。共同知识指的是“所有参与人知道,所有参与人知道所有参与人知道,所有参与人知道所有参与人知道所有参与人知道 ……‖ 的知识)。
0,4 4,0 5,3
4,0 0,4 5,3
3,5 3,5 6,6
局中人 B
局中人
A
左 中上中右下第二,这一方法对博弈结果的预测经常是不精确的。例如,在下面的博弈中,就没有可以剔除的严格劣战略。
四、纳什均衡( Nash equilibrium)
设想在博弈论预测的博弈结果中,为使该预测是正确的,局中人 自愿选择的战略 必须是 理论给他推导出的战略 。这样,每个局中人要选择的战略必须是针对其他参与者选择战略的 最优战略 。这种理论推测结果可以叫做“战略稳定”或“自动实施”的,因为没有参与人愿意独自离弃他所选定的战略,我们把这一状态称为 纳什均衡 。
)(
:是以下最优化问题的解即什均衡。
)是该博弈的一个纳(均成立,则称战略组合对所有
)()(
)的最优反应战略,即(
他局中人选择战略是(至少不劣于)对其,战略满足对任一局中人
)中,如果战略组合(人博弈在
niiii
i
nii
niiiiniiii
nii
i
nnn
ssssssu
s
sssSs
ssssssussssssu
sssss
si
sssuuSSGn
*,,*,,*,,*,*m ax
*
*,,*,*
*,,*,,*,,*,**,,*,*,*,,*,*
*,,*,*,,*,*
*
*,,*,*,,;,,
1121
21
11211121
1121
2111
0,4 4,0 5,3
4,0 0,4 5,3
3,5 3,5 6,6
局中人 B
局中人
A
左 中上中右下在右边的博弈中,
对于 A选择“上”时,B的最优战略为“左”;
对于 A选择“中”时,B的最优战略为“中”;
对于 A选择“下”时,B的最优战略为“右”;
对于 B选择“左”时,A的最优战略为“中”;
对于 B选择“中”时,A的最优战略为“上”;
对于 B选择“右”时,A的最优战略为“下”;
(下,右)满足纳市均衡的条件。
-6,-60,-9
-9,0-1,-1
囚犯 B
囚犯 A
沉默 招认沉默招认
(招认,招认) 是重复剔除严格劣战略均衡。
(招认,招认) 是纳什均衡。
纳什均衡和重复剔除严格劣战略均衡的关系,如果用重复剔除严格劣战略把除战略组合 外所有的战略组合都剔除掉,则该所存战略组合就是此博弈惟一的纳什均衡。 )( nsss *,,*,* 21?
由于重复剔除严格劣战略并不一定会只剩下惟一的战略组合,作为解的概念,纳什均衡比重复剔除严格劣战略更强。
下面的例子表明一个博弈可以有多个纳什均衡。
1,20,0
0,02,1
女男歌剧 拳击歌剧拳击性别博弈 (歌剧,歌剧 )和 (拳击,拳击 )都是纳什均衡。
五、几个命题的纳什均衡。略组合是该博弈中唯一合,则这一战)外的所有其他战略组剔除掉除战略组合(
劣战略中,如果重复剔除严格人博弈在命题一:
n
nn
sss
uuSSGn
*,,*,*
,,;,,
21
11
劣战略中被剔除。
合不会在重复剔除严格什均衡,则这一战略组)是该博弈中唯一的纳中,战略组合(人博弈如果在命题二:
n
nn
s
ssuuSSGn
*
,,*,*,,;,,2111
―斗鸡博弈”也有多个纳什均衡。
1,古诺的双头垄断模型六、应用举例假定:双头垄断,非勾结,产量竞争; 同质产品,生产的边际成本为 0;
市场需求为线性需求曲线,P = a – b Q = a – b (q1 + q2 ) ;
决策:假定对方不改变产量决策,追求利润最大化。
化为标准形式:
参与人:厂商 1、厂商 2
),0[),,0[ 2211 SqSq ii战略集:
收益:企业的收益就是其利润额,这样在一般的两个参与者标准式博弈中,参与者 1的收益分别为:
22122212
2
1211211
2
1
)()()(
)()()(
bqqbqaqCqqqba
bqqbqaqCqqqba
每个厂商要选择的战略必须是针对其他参与者选择战略的最优战略,
因而两个厂商各自的反应函数就是其 最优反应 。
两个厂商的反应函数:
22)(,22)(
11222211 q
b
aqqqq
b
aqqq
根据纳什均衡的定义,博弈的均衡解( q*1,q*2 )必须同时满足两个反应函数:
3
)**(*
3
2
***
{
3
1
*
3
1
*
{
2
*
2
*
2
*
2
*
{
21
21
2
1
1
2
2
1
a
qqbaP
b
a
qqQ
b
a
q
b
a
q
q
b
a
q
q
b
a
q
2,公地的悲剧有 n户村民的村庄,每年在村庄公共牧场上放牧羊只。以 gi表示第 i户村民放牧的羊数,全村牧羊总数 G = g1+ g2+…+ g n。假定购买和照看每只羊的成本为 c,
c不随意户村民拥有的羊的数目而变化。当草地上羊的总数为 G时,一户村民养一只羊的价值为 v(G)。由于一只羊要生存,至少需要一定数量的青草,草地可以放牧的羊的总数优一个上限 Gmax:当 G< Gmax时,v(G)>0,而当 G≥ Gmax时,
v(G)=0。此外,假定在最初,由于优足够的放牧空间,增加一只羊不会对已经放养的洋产生太大影响,而随着羊的增加,所有羊只的价值将受到影响越来越大,到当 G = Gmax时,每只羊的价值为 0,即:< Gmax时,v’(G) < 0,v‖(G) < 0,
如下图所示:
Gmax G
v(G)
O
这里假定羊是连续可分的,每年初,各户村民决定养殖羊的数目 gi。
在此博弈中,参与人为 n户村民,每户村民的战略就是其决定养殖羊的数目 gi,战略空间为 [0,∞),而收益为:
iniiii
iii
cggggggvg
cgGvg
)(
)(
111
如果( g*1,…,g* n)为纳什均衡,则对于村民 i,当其他村民选择战略
( g*1,…,g* i-1,g*i+1,…,g* n)时,其最优战略应是使其收益最大的战略:
i
i
niii
i
iniiiii
g
gG
ggggg
n
n
cGvgGv
cggggggvg
i
**
)*,,*,*,*,,*(
:
0*)('*)(
,
)****(m ax
111
111
),0[
:纳什均衡的总饲养量为
,可得到纳什均衡解户村民的反映函数联立把户村民的反应函数。户村民的一阶条件为各根据一阶条件
)*)('
*
(*)(,0*)('
*
*)(
0*)('**)(
cGv
n
G
GvcGv
n
G
Gv
cnGvgGvn
n
n
i
i
,可得户村民的一阶条件加总把第一项为每户村民每头羊的边际收益,第二、三项为对村民而言每增加一头羊的边际成本。
从村民的反应函数可看出,尽管每户村民在决定增加饲养量时考虑了对现有羊的价值的负效应,但他考虑的只是对自己羊的影响,而并不是对所有羊的影响。因此,最优点上个人边际成本小于社会边际成本,纳什均衡的总饲养量大于社会最优的饲养量。
从整个村庄的最优选择考虑,最优的总饲养数 G**优以下最优化问题解出:
cGvGGv
cGvGGv
cGGvG
G
*)*('***)*(
0*)*('***)*(
,
)(m a x
),0[
根据一阶条件与纳什均衡结果相比较:
***0)('
*)*(*)(
)(')(')]('[])('[,
*)('
*
*)(
GGGv
GvGv
cGvGcGv
n
G
GvGGv
n
G
G
n
G
cGv
n
G
Gv
由于由于
,即公共资源被过渡使用了。
第三节 完全信息动态博弈在静态博弈中,所有参与人同时行动 (或行动虽有先后,但没有人在自己行动之前观测到别人的行动。在动态博弈中,参与人的行动有先后顺序,
且后行动者在自己行动之前能观测到先行动吉的行动。动态博弈常用扩展式表述。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
考虑右边以博弈树描述的两阶段博弈。在某产品市场上,厂商 A和 B对是否进入该市场进行决策。
A是先行动者,B在观察了 A的行动后,决定自己的行动。
如果市场中只有一个厂商,则该厂商得到全部 1个单位的收益。不进入市场的厂商收益为零。如果市场中有两个厂商,则各得到 -3单位的收益。
一、博弈的扩展式( extentive form representation)
一个 博弈的扩展式表述包括,
(1)参与人( players) ;
( 2)行动( actions)
(2a)每一参与者的行动 (the order of actions);
(2b)每次轮到某一参与者行动时,他的行动空间( action sets);
(2c)每次轮到某一参与者行动时,他所了解的信息集( information sets) ;
(3)与参与者可能选择的每一行动组合相对应的各个参与者的收益 。
完全(且完美)信息动态博弈的主要特点是,(i)行动是顺序发生的,
(ii)下一步行动选择之前,所有以前的行动都可被观察到,及 (iii)每一可能的行动组合下参与者的收益都是共同知识。
二、博弈树( game tree)
博弈树由结( nodes)、枝( branches)、信息集( information set)构成。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
1.结 (nodes):结包括决策结 (decition
nodes)和终点结 (terminal nodes)两类。
决策结是参与人采取行动的时点,终点结是博弈行动路径的终点。
在博弃树中,“谁在什么时候行动”用在决策结旁边标注参与人的办法来表示。参与人的支付标注在博弈树终点结处。
2.枝 (branches),在博弈树上,枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。 3.信息集 (information sets),博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集。该子集包括所有满足下列条件的决策结,(1)每一个决策结都是轮到同一参与人的决策结; (2)该参与人知道博弈进入该集合的的某个决策结,但不知道自己究竟处于哪一个决策结。
如果参与人在每一步行动中,都知道前面博弈进行的全过程,则其信息集是单结的,此时,信息是完美的( perfect information)。相反,信息是非完美的( imperfect information)。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
在右边的博弈中,A是先行动者,其信息集为初始结( initial node),为单结信息集。
在 A行动以后,轮到 B行动时,
如果 B知道 A的行动,如 A选择“进入”,则其信息及是单结的(结点
1)。如果 B不知道 A的行动,则 B的信息集包括结点 1和结点 2,而 B不知道自己在其中的哪个结点上。
在非完美信息条件下,该两阶段博弈其实就是一个完全信息静态博弈。
1
2
在当然,动态博弈也可以用标准式来表述。引入信息集的概念后,也可以用扩展式表述静态博弈。
在市场进入博弈中,A有两个行动,“进入”、“不进入”。由于是先行动者,只有 两个战略,选择“进入”或“不进入”。
B有两个行动,“进入”、“不进入”。
但是,有 4个战略,
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
(1)若 A选择“进入”,B选择“进入”,
若 A选择“不进入”,B选择“进入”,
即
(进入,进入)
(2)若 A选择“进入”,B选择“进入”,
若 A选择“不进入”,B选择“不进入”,即
(进入,不进入)
1
2
(3)若 A选择“进入”,B选择“不进入”,若 A选择“不进入”,B选择
“不进入”,即
(不进入,进入)
(4)若 A选择“进入”,B选择“不进入”,若 A选择“不进入”,B选择
“不进入”,即根据 A,B的战略空间,可以用标准式表述该博弈。
三、博弈的标准式表述与扩展式表述
-3,-3 -3,-3 1,0 1,0
0,1 0,0 0,1 0,0
A
B
(进入,进入)
进入不进入
(进入,不进入) (不进入,进入) (不进入,不进入)
市场进入博弈的标准式,
沉默招认
A
B
B
沉默招认招认沉默收益:
A B
-1,-1
-9,0
0,-9
-6,-6
1)参与人,A,B
2)行动顺序;
A的行动空间:(,沉默”、“招认”)、
B的行动空间:(,沉默”、“招认”);
A的信息集,( 初结点)、
B的信息集,( 结点 1,结点 2 );
3)支付。
1
2
囚徒博弈的扩展式(非完美信息博弈):
四、子博弈,子博弈精炼纳什均衡
1、子博弈子博弈是原博弈的一部分,它本身可以作为一个独立的博弈进行分析。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B-3,-3
1,0
0,1
0,0
沉默招认
A
B
B
沉默招认招认沉默
-1,-1
-9,0
0,-9
-6,-6
子博弈的定义,一个扩展式博弈中的子博弈,a)由具有单结信息集的决策结 n开始,并包括博弈树中该决策结以下的所有决策结和终点结,并且 b)没有对任何信息集形成分割(即如果博弈树中 n之下有一个决策结 n’,
则和 n’处于同一信息集的其他决策集结也必须在 n之下,从而也必须包含于子博弈中。 )
在市场进入博弈中,包含 3个子博弈(包括原博弈)。而在囚徒博弈中,只有一个子博弈(?)。
2、子博弈精炼纳什均衡考虑市场进入博弈的纳什均衡。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
-3,-3 -3,-3 1,0 1,0
0,1 0,0 0,1 0,0
A
B
(进入,进入)
进入不进入
(进入,不进入) (不进入,进入) (不进入,不进入)
该博弈中有三个纳什均衡:
不进入,(进入,进入)
进入,(不进入,进入)
进入,(不进入,不进入)
前两个均衡的结果是 (进入,不进入 ),
即 A进入,B不进入; 第二个均衡的结果是 (不进入,进入 ),即 A不进入,B进入。
如果理论得到这样的结果,无助于预测博弈参与人的行为。此外,纳什均衡假定,每一个参与人选择的最优战略是在所有其他参与人的战略选择给定时的最优反应,即参与人并不考虑自己的选择对其他人选择的影响,因而纳什均衡很难说是动态博弈的合理解。
因此,必须在多个纳什均衡中剔除不合理的均衡解,即所谓“不可置信威胁”。 子博弈精炼纳什均衡 是对纳什均衡概念的最重要的改进。它的目的是把动态博弈中的“合理纳什均衡”与“不合理纳什均衡”分开。正如纳什均衡是完全信息静态博弈解的基本慨念一样,子博弈精炼纳什均衡是完全信息动态博弈解的基本概念。
① {不进入,(进入,进入) }
② {进入,(不进入,进入) }
③ {进入,(不进入,不进入) } 进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
前边得到的三个纳什均衡中,均衡①意味着当 A不进入时,B选择进入;而当 A选择进入时,
B仍选择进入( B威胁无论如何都要进入市场)。
显然,当 A选择进入时,B仍选择进入 是不合理的,如果 A进入市场,
B选择“不进入”比选择“进入”收益要更大,理性的 B不会选择进入,
而 A知道 B是理性的,因此也不会把该战略视为 B会选择的战略。因此,B
的战略(进入,进入)是不可置信威胁 。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
均衡③意味着当 A进入时,B选择不进入;而当 A选择不进入时,B仍选择进入( B
威胁无论如何都不进入市场)。显然,当 A
选择进入时,B仍选择进入 是 不合理 的,B的战略是不可置信威胁 。
① {不进入,(进入,进入) }
② {进入,(不进入,进入) }
③ {进入,(不进入,不进入) }
只有均衡 ②是合理的:如果 A进入,B不进入;如果 A不进入,B进入。
因为 A是先行动者,理性的 A会选择“进入”(他知道 B是理性的,B不会选择“进入”),而理性的 B选择“不进入”。
观察博弈树上的三个均衡中,B的不可置信战略中的反应,在第二阶段 B开始行动的两个子博弈中不是最优;而合理的纳什均衡中,B的战略在所有子博弈中都是最优的,与 A的第一阶段可能选择的行动构成该子博弈的纳什均衡。
①
②
③
①
②
③
因此,只有当一个战略规定的行动规则在所有可能的情况下都是最优的时,它才是一个合理的、可置信的战略。子博弈精炼纳什均衡就是要剔除掉那些只在特定情况下是合理的而在其他情况下并不合理的行动规则。
子博弈精炼纳什均衡,如果参与者的战略在每一个子博弈中都构成了纳什均衡,则称纳什均衡是子博弈精练的 (泽尔滕,1965) 。
为简单起见,假定博弈有两个阶段,第一阶段参与人 1行动,第 2阶段参与人 2行动,并且 2在行动前观测到 1的选择。令 A1是参与人 1的行动空间,A2是参与人 2的行动空间。当博弈进入第二阶段,给定参与人 1在第一阶段的选择为 a1∈ A1,参与人 2面临的问题是:
),( 21m a x
22
aau
Aa?
显然参与人 2的最优选择 a2*依赖于参与人 1的选择 a1。用 a2*= R(a1)代表上述最优化问题的解 (即 2的反应函数 )。因为参与人 1应该预测到参与人
2在博弈的第二阶段将按 a2*= R(a1)的规则行动,参与人 1在第一阶段面临的问题是:
))(,( 11m a x
11
aRau
Aa?
令上述问题的最优解为 a1*。那么,这个博弈的子博弈精炼纳什均衡为 {a1*,R2(a1)},均衡结果为 {a1*,R2(a1*)}。 (a1*,R2(a1*))是一个精炼均衡,
因为 a2*= R2(a1)在博弈的第二阶段是最优的。除 a2*= R2(a1)之外,任何其他的行为规则都不满足精练均衡的要求。
上述思路就是 逆向归纳法 寻找子博弈精炼纳是均衡的基本思路。
3、逆向归纳法( rollback,
backward induction)
逆向归纳法求解子博弈精炼纳什均衡的过程,实质是重复剔除劣战略过程在扩展式博弈上的扩展:从最后一个决策结开始依次剔除掉每个子博弈的劣战略,最后生存下来的战略构成精炼纳什均衡。如同重复剔除的占优均衡要求“所有参与人是理件的”
是共同知识一样,用逆向归纳法求解均衡也要求“所行参与人是理性的”
是共同知识。
进入不进入
A
B
B
进入不进入不进入进入收益:
A B
-3,-3
1,0
0,1
0,0
{进入,(不进入,进入) }
五、应用举例:斯泰伯格模型假定:双头垄断,非勾结,同时决策;产量竞争; 同质产品,生产的边际成本为常数 c;市场需求为线性需求曲线,P = a – b Q = a – b (q1 + q2 ) 。
在决策过程中,先决策者在考虑对手可能的决策结果的基础上,确定自己的产量;后决策者在观察对手的决策以后,确定自己的产量。
22212
11211
)]([
)]([
cqqqqba
cqqqqba
两个企业的行动空间分别为 A1=[0,∞),A2=[0,∞)
博弈的时间顺序如下,(1)企业 1选择产量 q1; (2)企业 2观测到 q1,然后选择产量 q2; (3)企业的收益由下面的利润函数给出:
为解出这一博弈的逆向归纳解,我们首先计算企业 2对企业 1任意产量的最优反应 R2(a1),应满足:
22212 )]([m a x
22
cqqqqba
Aq
可得到 2的反应函数:
22 12
q
b
caq
企业 1也必须像 2一样做出最优反应:
11112 ) ) ](([m a x
11
cqqqRqba
Aq
因此,企业 1的最优行动为:
b
caq
2*1
而企业 2的最优行动为:
b
caq
b
caq
422*
1
2
在此博弈中,子博弈精炼纳什均衡解为,*)*,(
21 qq
而子博弈精炼纳什均衡为,)
22*,())(*,( 1111
q
b
caqqRq,即