中级微观经济学
Intermediate Microeconomics
? Copyright by zheng changde 2004
All rights reserved.
SWUN
7.博弈论的应用
Game Applications
西南民族大学
?问题的提出
?最佳反应曲线
?合作博弈
?竞争博弈
?依存博弈
?承诺博弈
Game Theory
西南民族大学
Motivation
西南民族大学
前面我们讨论了博弈论的一些基本概
念,这一部分将讨论博弈论的几个重
要应用:合作博弈,竞争博弈,依存
博弈,承诺博弈。很多是我们日常生
活中常见的例子。
我们讨论这些博弈的目的包括:
不同博弈适用于不同的事件;
讨论不同博弈如何实现帕累多偏好纳
什均衡。
Motivation
西南民族大学
给定其他博弈人的策略选择,我
能够选择的最佳策略集叫做 最佳反
应曲线( best response curve) 。
如果你有主导性策略,你应该选
择这个策略;而且你也应该预期你
的对手也会选择她(他)的主导性
策略。
最佳反应曲线
西南民族大学
一个两人博弈多个策略的例子:
有两个酒吧,A和 B,互相竞争。
每个酒吧都只卖同样的酒,可以每
瓶酒的价格定在¥ 2,¥ 4,¥ 5。
有 6000游客,他们随机选择酒吧。
有 4000当地居民,他们只去比较便
宜的那个酒吧。
最佳反应曲线
西南民族大学
如果每个酒吧的价格都定在¥ 2,
每个酒吧会招徕同样多的顾客,即
( 6000+4000) /2=5000。
如果酒吧 A定价¥ 4,B定价¥ 5,
那么所有的本地居民都只会去酒吧
A。 A将会招徕 3000+4000=7000
顾客,B只能招徕剩下的 3000名游
客。
最佳反应曲线
西南民族大学
报酬矩阵(万元)
¥ 2 ¥ 4 ¥ 5
Bar A
¥ 2 10,10 14,12 14,15
¥ 4 12,14 20,20 28,15
¥ 5 15,14 15,28 25,25
Bar B
最佳反应曲线
西南民族大学
问题是:每个博弈人的主导性策
略是什么?
被主导的策略( dominated
strategy), 被别的策略主导的策
略。纳什均衡不可能存在于被主导
的策略中,所以在解主导性策略或
纳什均衡时,被主导的策略可以略
去,以简化报酬矩阵。
最佳反应曲线
西南民族大学
$4 $5
Bar 1 $4 20,20 28,15$5 15,28 25,25
25,25
28,15
14,15
$5$4
15,2815,14$5
20,2012,14$4Bar 1
14,1210,10$2
$2
Bar 2
Bar 2
最佳反应曲线
西南民族大学
如果在一个两人博弈中,存在 N
个策略,并有多个纳什均衡,且已
知( x*,y*) 是一个纳什均衡的策略
组合,那么最佳反应曲线可以一般
表示为:
最佳反应曲线
* ( * )
* ( * )
x f y
y g x
?
?
西南民族大学
在讨论最佳反应曲线时,我们不光
要要考虑纯策略均衡,还要考虑混合
均衡的可能性 。
我们还是以两人博弈,每个博弈人
有两个策略为例。设企业一选 L的概率
为 p,企业二选 L的概率为 q。
求两个企业的最佳反应曲线。
最佳反应曲线
西南民族大学
Firm 1
Low Price
(q)
High Price
(1-q)
Low Price
( p)
High Price
(1-p)
Firm 2
2,1 0,0
1,20,0
最佳反应曲线
西南民族大学
我们知道这个博弈的纯策略均衡:
当 p=q=1时,( L,L);
当 p=q=0时,( H,H)。
混合策略均衡是:
最佳反应曲线
1
21
3
2
2( 1 )
3
q q q
p p p
? ? ? ?
? ? ? ?
西南民族大学
企业一的最佳反应曲线,
当 q<1/3时,选 H( p=0)
当 q=1/3时,H和 L没有差别,0<p<1
当 q>1/3时,选 L( p=1)
企业二的最佳反应曲线,
当 p<2/3时,选 H( q=0)
当 p=2/3时,H和 L没有差别,0<q<1
当 p>2/3时,选 L( q=1)
最佳反应曲线
西南民族大学
最佳反应曲线
p
q
0
1/3
2/3 1
1
企业二的最佳
反应堆曲线
企业一的最佳
反应堆曲线
( H,H)
( L,L)
西南民族大学
合作博弈( coordination game),
如果博弈双方能够合作,那么就有
可能实现帕累多偏好均衡,即双方
的报酬比不合作的时候高。
问题:需要什么样的机制才能实现
博弈双方的合作?
我们知道无限次重复的博弈可以解
决合作的问题。还有其他机制吗?
合作博弈
西南民族大学
例一:看电影的性别之争
男孩要看动作片,女孩要看艺术
片,他们的报酬矩阵如下,两个博
弈人如何达成一致呢?
合作博弈
Girl
Action Art
Boy Action 2,1 0,0
Art 0,0 1,2
西南民族大学
首先找出纳什均衡
( Action,Action),( Art,Art) 和
男孩( 2/3,1/3) 与女孩( 1/3,
2/3) 。
需要其他机制来解决这一次看什
么电影的问题。
可能的机制:哪一部电影更新?
上次看的是什么电影?
合作博弈
西南民族大学
如果博弈双方有一个共同的理由“自然”
认为一个纳什均衡好于另一个,这个均衡
就叫做这个博弈的 焦点解( focal point) 。
通常举的另外一个例子是约人见面。如
果你约你北大的同学在学校里见面,你通
常会说“我们在三角地见”。但三角地也
有好几个地方,你们的一个共识或第一反
应很可能就是三角地书店门口,即这个简
单博弈的焦点解。
合作博弈
西南民族大学
例二:合资企业供应商的选择
一个合资企业需要挑选一个供应商,
这个企业的两个合伙人都有自己熟悉
或偏好的供应商( A和 B),那么两个
合伙人怎么达成一致呢?
合作博弈
合伙人 2
A B
合伙人 1 A 100,50 0,0
B 0,0 50,100
西南民族大学
首先存在两个纯策略纳什均衡:
( A,A),( B,B)
两个合伙人各偏好自己的供应商
需要其他机制来解决个问题呢?
可能的机制:一个合伙人承诺或威
胁要选择 A,绝不接受 B; 或者由第
三者来决定选择哪个供应商。
合作博弈
西南民族大学
例三:确认博羿 --R&D投资决定
两个企业都有 45万元用于投资 R&D
但 R&D的投资只有在两个企业同时
进行的时候才可能获得成功。
报酬矩阵如下:
合作博弈
企业 2
Invest Don’t
企业 1 Invest 50,50 0,45
Don’t 45,0 45,45
西南民族大学
同样存在两个纯策略纳什均衡:
( Invest,Invest) ( Don’t,Don’t)
每个企业都不是很清楚对方的决定
需要其他机制来解决个问题呢?
可能的机制:由于投资是有风险的,
所以需要一个确认( assurance) 机
制。或者一方承诺要投资(策略性行
动),或者一方率先投资(即序贯博
弈中的领头者)。
合作博弈
西南民族大学
同样存在两个纯策略纳什均衡:
( Invest,Invest) ( Don’t,Don’t)
每个企业都不是很清楚对方的决定
需要其他机制来解决个问题呢?
可能的机制:由于投资是有风险的,
所以需要一个确认( assurance) 机制
。或者一方承诺要投资(策略性行动
),或者一方率先投资(即序贯博弈
中的领头者)。
合作博弈
西南民族大学
通过前面的例子我们可以发现,确保博
弈中双方合作的机制是多种多样的。但有
两种机制是比较常见的:
承诺( commitment) 机制:我说了我要
做,我肯定会做。承诺机制是以名誉做后
盾的,一个过去经常毁约的人的承诺是没
有任何价值的。
序贯博弈机制:序贯博弈机制比承诺机
制更强,你先实际做了,希望后面的人会
跟着你做。
合作博弈
西南民族大学
跟合作博弈相反的是 竞争博弈(
competition game) 。 在竞争博弈中不
存在合作的可能性,由于存在利益冲
突,博弈一方的所得是以另一方的损
失为代价的。
一个典型的竞争博弈的例子是零和
博弈( zero-sum game)。 运动比赛、
收入分配、企业降价竞争等都可能是
零和博弈。
竞争博弈
西南民族大学
例一:零和博弈 —点球射门
攻方的目标是进球,守方的目标是
扑出尽可能多的球(少进球),在这
方面没合作的可能。
攻方的策略是:攻左边,或攻右边
守方的策略是:守左边,或守右边
(以守方的方向为准)
这是一个典型的同时博弈。
竞争博弈
西南民族大学
如果守方扑的方向正好是攻方进
攻的方向,那么球被扑出的可能性
就比较大,反之就较小。而从攻方
来说,则是要考虑如何做假动作迷
惑守方,使得守方判断失误。因此
,攻方肯定会选择混合策略,而不
会是纯策略。
竞争博弈
西南民族大学
假设报酬矩阵(成功的可能性)
如下:
竞争博弈
守方
守左边
(q)
守右边
(1-q)
攻方 攻左边
(p)
50,-50 80,-80
攻右边
(1-p)
90,-90 20,-20
西南民族大学
攻方的策略:如果攻方攻左边的
概率是 p,那么
如果守方守左边,攻方的预期报
酬是,50p+90(1-p)。
如果守方守右边,攻方的预期报
酬是,80p+20(1-p)。
攻方的目标是要实现预期报酬的
最大化(见下图)。
竞争博弈
西南民族大学
竞争博弈
0
100
90 80
62
0.7 1 p
成功的可能性
守方守左边
守方守右边
50
20
攻
方
的
策
略
西南民族大学
但是,守方知道攻方的企图,希望
采取相应的措施使得攻方的预期报酬
的最小化。比如说,如果守方确定攻
方的 p=50%的时候,守方会守右边;
在 p=90%的时候守左边。
攻方的目标因此修正为:实现守方
计算的最小攻方预期报酬的最大化(
the maximum of the minimum
payoffs),即 p=0.7。
竞争博弈
西南民族大学
竞争博弈
0
100
90 80
62
0.7 1 p
成功的可能性
守方守左边
守方守右边
50
20
守方计算的
最小攻方预
期报酬
西南民族大学
攻方的最大预期报酬的计算:
给定 p,攻方在守方守左边和右边的
预期报酬预期报酬相等。即 50p+90(1-
p)= 80p+20(1-p),得出 p=0.7。
这一结果反映了给定攻方最大化自
己的预期报酬,守方最小化攻方的预
期报酬(最大化守方的预期报酬)的
结果。
竞争博弈
西南民族大学
攻方的最佳策略同样可以建立在对
方策略选择的基础上。类似地,守方
也会选择混合策略,以防止攻方判断
其防守方向而攻其不备。
如果守方防守左边的概率是 q,
攻方攻击左边的预期报酬是
50q+80(1- q)
攻方攻击右边的预期报酬是
90q+20(1-q)( 见下图)
竞争博弈
西南民族大学
竞争博弈
0
100
80
90
62
0.6 1 q
成功的可能性
攻方攻左边
攻方攻右边
50
20
守
方
的
策
略
西南民族大学
在这里,给定守方的行为已经最
大化了守方的预期报酬(即最小化
了攻方的预期报酬),攻方如何实
现预期报酬的最大化。当 q较小
时,攻方会攻左边;当 q较大时,
攻方会攻右边。
守方将会选择最佳的 q来达到攻
方预期报酬的最小化,即 q=0.6。
竞争博弈
西南民族大学
竞争博弈
0
100
80
90
62
0.6 1 q
成功的可能性
攻方攻左边
攻方攻右边
50
20
守
方
的
策
略
西南民族大学
给定报酬矩阵,我们现在已经解
出了点球博弈中攻方和守方的混合
策略纳什均衡,即攻方攻击球门左
或右的概率为( 0.7,0.3),守方
防守球门左或右的概率为( 0.6,
0.4)。
竞争博弈
西南民族大学
?依存博弈( coexistence game), 依存
博弈介于竞争博弈与合作博弈之间,
博弈双方面临要么竞争要么合作的选
择。
一个典型的例子是鹰鸽博弈(
hawk-dove game)。 每个博弈人都有
鹰派好斗( hawkish) 和鸽派柔弱(
dovish) 的两面性,那么什么时候应该
表现出鹰派的一面,什么时候应该表
现出鸽派的一面呢?
依存博弈
西南民族大学
一个鹰鸽博弈通常应用在资源分配
上。如果两个人分一个比萨饼,有这
么几种可能性:
如果两个博弈人都是鸽派,平分;
如果一个鹰派,一个鸽派,鹰派独
得整个比萨饼;
如果两个都是鹰派,那么就可能打
得头破血流,报酬可能都为负。
依存博弈
西南民族大学
我们来看鹰鸽博弈的一个例子:
甲和乙分配¥ 4
依存博弈
乙
Hawk Dove
甲 Hawk -2,-2 4,0
Dove 0,4 2,2
西南民族大学
我们知道,合作(双方都表现为鸽
派)和决斗(双方都表现为鹰派)显
然都不是纳什均衡。纯策略纳什均衡
是( Hawk,Dove) 和( Dove,Hawk)
。 但这显然与我们观察到的现实生活
不符,再柔弱的人也有奋起反抗的时
候,反抗的结果也不全是同归于尽。
在现实生活中,一个更可能的均衡
是混合策略均衡。
依存博弈
西南民族大学
依存博弈的混合策略均衡:
可以这样分析依存博弈的混合策略均衡:
如果在一个现实生活中,一部分人( p )
比较好斗(鹰派),另一部分人( 1- p) 比
较温和(鸽派)。
在一个两人博弈中,好斗一方的预期报
酬( H) 取决于他的对手是鹰派还是鸽派,
即 H=-2p+4(1-p)。
类似地,温和一派的预期报酬( D):
D=0*p+2(1-p)=2(1-p)。
依存博弈
西南民族大学
混合策略均衡要求一个博弈人在选择好
斗或温和策略时的预期报酬相等。
在我们这个例子中,我们可以这么求
解,即鹰派和鸽派的预期报酬应该相等,
即 H=D。 如果 H>D,鹰派将会较快地繁衍
鹰派后代;如果 H<D,鸽派会占上风;只
有在 H=D时,鹰派占人口的比例( p) 才是
稳定的。
从 H=D得出,p=1/2。
依存博弈
西南民族大学
p=1/2是一个混合策略纳什均衡。
我们也将这样的均衡叫做演进稳
态策略( evolutionarily stable
strategy)。
一个重要的博弈论分支叫作演进
博弈( evolutionary game theory)
依存博弈
西南民族大学
依存博弈的混合策略均衡也可以用下图
来表示:
依存博弈
预期报酬
2
4
10.5 p
鹰派的预期报酬 ( H)
鸽派的预期报酬 ( D)
西南民族大学
承诺博弈( commitment game),
前面我们提到序贯博弈可以解决同时
博弈中出现多个纳什均衡问题。事先
承诺( commitment) 通常是解决同时
博弈中信息不充分的一个重要策略。
一旦博弈一方作出承诺,博弈双方的
决策时间就有了先后,同时博弈就变
成了序贯博弈,承诺方是领头者,另
一方是跟从者。
承诺博弈
西南民族大学
承诺是有价值的。
承诺使得博弈人可以通过限制自
己在未来的行为中获益,因为这样
的承诺改变了博弈另一方的行为,
这样的改变有利于承诺方。有了这
样的承诺,博弈人放弃了一部分未
来的选择。
承诺博弈
西南民族大学
承诺机制:事先承诺事后履行通常是
困难的。需要什么样的承诺机制呢?
承诺必须是不可逆的、众所周知的。
法律、社会道德和压力、名誉、重复博
弈等都可以帮助承诺方履行自己的承诺。
为了提高承诺的可信度,承诺方通常会
采取一些行动,例如现在采取一些可以限
制未来选择的行动,或改变激励机制从而
改变承诺方未来的行为。
承诺博弈
西南民族大学
例:青蛙与蝎子
在这个博弈中,蝎子要青蛙帮忙渡江,
青蛙也乐于帮忙,青蛙的唯一要求是蝎子
不能在渡江途中叮它。
只有在蝎子承诺在渡江途中不叮青蛙,
青蛙才可能帮这个忙。
蝎子承诺了,并且这个承诺是可信的
( credible),因为如果蝎子叮青蛙的话,
蝎子和青蛙都有灭顶之灾,蝎子应该不会
拿生命开玩笑。
承诺博弈
西南民族大学
但是,蝎子在渡江途中还是忍不住
叮了青蛙,于是蝎子与青蛙都沉入江
底。
那么,青蛙犯了什么错误呢?
青蛙的错误是轻信了蝎子的承诺。
因为对蝎子来说,叮青蛙是它的本
能,叮青蛙所带来的效用大于其生命
的价值(见下页图)。如果青蛙了解
到这一点,就不会送蝎子过江。
承诺博弈
西南民族大学
?青蛙与蝎子博弈树形图
承诺博弈
蝎子
Sting (-10,5)
Carry
Don’t
Refuse
(5,3)
(0,0)
青蛙先
西南民族大学
为使青蛙同意帮蝎子过江,需要一
个可信的承诺机制,即青蛙或蝎子需
要采取一些行动来降低蝎子叮青蛙所
带来的“报酬”。
这些行动包括雇佣一只青蛙打手,
如果蝎子叮了青蛙,这只青蛙打手就
会对青蛙的家人实施报复,如果这只
蝎子在意家人的话,这样的报复降低
了蝎子叮青蛙带来的好处。
承诺博弈
Intermediate Microeconomics
? Copyright by zheng changde 2004
All rights reserved.
SWUN
7.博弈论的应用
Game Applications
西南民族大学
?问题的提出
?最佳反应曲线
?合作博弈
?竞争博弈
?依存博弈
?承诺博弈
Game Theory
西南民族大学
Motivation
西南民族大学
前面我们讨论了博弈论的一些基本概
念,这一部分将讨论博弈论的几个重
要应用:合作博弈,竞争博弈,依存
博弈,承诺博弈。很多是我们日常生
活中常见的例子。
我们讨论这些博弈的目的包括:
不同博弈适用于不同的事件;
讨论不同博弈如何实现帕累多偏好纳
什均衡。
Motivation
西南民族大学
给定其他博弈人的策略选择,我
能够选择的最佳策略集叫做 最佳反
应曲线( best response curve) 。
如果你有主导性策略,你应该选
择这个策略;而且你也应该预期你
的对手也会选择她(他)的主导性
策略。
最佳反应曲线
西南民族大学
一个两人博弈多个策略的例子:
有两个酒吧,A和 B,互相竞争。
每个酒吧都只卖同样的酒,可以每
瓶酒的价格定在¥ 2,¥ 4,¥ 5。
有 6000游客,他们随机选择酒吧。
有 4000当地居民,他们只去比较便
宜的那个酒吧。
最佳反应曲线
西南民族大学
如果每个酒吧的价格都定在¥ 2,
每个酒吧会招徕同样多的顾客,即
( 6000+4000) /2=5000。
如果酒吧 A定价¥ 4,B定价¥ 5,
那么所有的本地居民都只会去酒吧
A。 A将会招徕 3000+4000=7000
顾客,B只能招徕剩下的 3000名游
客。
最佳反应曲线
西南民族大学
报酬矩阵(万元)
¥ 2 ¥ 4 ¥ 5
Bar A
¥ 2 10,10 14,12 14,15
¥ 4 12,14 20,20 28,15
¥ 5 15,14 15,28 25,25
Bar B
最佳反应曲线
西南民族大学
问题是:每个博弈人的主导性策
略是什么?
被主导的策略( dominated
strategy), 被别的策略主导的策
略。纳什均衡不可能存在于被主导
的策略中,所以在解主导性策略或
纳什均衡时,被主导的策略可以略
去,以简化报酬矩阵。
最佳反应曲线
西南民族大学
$4 $5
Bar 1 $4 20,20 28,15$5 15,28 25,25
25,25
28,15
14,15
$5$4
15,2815,14$5
20,2012,14$4Bar 1
14,1210,10$2
$2
Bar 2
Bar 2
最佳反应曲线
西南民族大学
如果在一个两人博弈中,存在 N
个策略,并有多个纳什均衡,且已
知( x*,y*) 是一个纳什均衡的策略
组合,那么最佳反应曲线可以一般
表示为:
最佳反应曲线
* ( * )
* ( * )
x f y
y g x
?
?
西南民族大学
在讨论最佳反应曲线时,我们不光
要要考虑纯策略均衡,还要考虑混合
均衡的可能性 。
我们还是以两人博弈,每个博弈人
有两个策略为例。设企业一选 L的概率
为 p,企业二选 L的概率为 q。
求两个企业的最佳反应曲线。
最佳反应曲线
西南民族大学
Firm 1
Low Price
(q)
High Price
(1-q)
Low Price
( p)
High Price
(1-p)
Firm 2
2,1 0,0
1,20,0
最佳反应曲线
西南民族大学
我们知道这个博弈的纯策略均衡:
当 p=q=1时,( L,L);
当 p=q=0时,( H,H)。
混合策略均衡是:
最佳反应曲线
1
21
3
2
2( 1 )
3
q q q
p p p
? ? ? ?
? ? ? ?
西南民族大学
企业一的最佳反应曲线,
当 q<1/3时,选 H( p=0)
当 q=1/3时,H和 L没有差别,0<p<1
当 q>1/3时,选 L( p=1)
企业二的最佳反应曲线,
当 p<2/3时,选 H( q=0)
当 p=2/3时,H和 L没有差别,0<q<1
当 p>2/3时,选 L( q=1)
最佳反应曲线
西南民族大学
最佳反应曲线
p
q
0
1/3
2/3 1
1
企业二的最佳
反应堆曲线
企业一的最佳
反应堆曲线
( H,H)
( L,L)
西南民族大学
合作博弈( coordination game),
如果博弈双方能够合作,那么就有
可能实现帕累多偏好均衡,即双方
的报酬比不合作的时候高。
问题:需要什么样的机制才能实现
博弈双方的合作?
我们知道无限次重复的博弈可以解
决合作的问题。还有其他机制吗?
合作博弈
西南民族大学
例一:看电影的性别之争
男孩要看动作片,女孩要看艺术
片,他们的报酬矩阵如下,两个博
弈人如何达成一致呢?
合作博弈
Girl
Action Art
Boy Action 2,1 0,0
Art 0,0 1,2
西南民族大学
首先找出纳什均衡
( Action,Action),( Art,Art) 和
男孩( 2/3,1/3) 与女孩( 1/3,
2/3) 。
需要其他机制来解决这一次看什
么电影的问题。
可能的机制:哪一部电影更新?
上次看的是什么电影?
合作博弈
西南民族大学
如果博弈双方有一个共同的理由“自然”
认为一个纳什均衡好于另一个,这个均衡
就叫做这个博弈的 焦点解( focal point) 。
通常举的另外一个例子是约人见面。如
果你约你北大的同学在学校里见面,你通
常会说“我们在三角地见”。但三角地也
有好几个地方,你们的一个共识或第一反
应很可能就是三角地书店门口,即这个简
单博弈的焦点解。
合作博弈
西南民族大学
例二:合资企业供应商的选择
一个合资企业需要挑选一个供应商,
这个企业的两个合伙人都有自己熟悉
或偏好的供应商( A和 B),那么两个
合伙人怎么达成一致呢?
合作博弈
合伙人 2
A B
合伙人 1 A 100,50 0,0
B 0,0 50,100
西南民族大学
首先存在两个纯策略纳什均衡:
( A,A),( B,B)
两个合伙人各偏好自己的供应商
需要其他机制来解决个问题呢?
可能的机制:一个合伙人承诺或威
胁要选择 A,绝不接受 B; 或者由第
三者来决定选择哪个供应商。
合作博弈
西南民族大学
例三:确认博羿 --R&D投资决定
两个企业都有 45万元用于投资 R&D
但 R&D的投资只有在两个企业同时
进行的时候才可能获得成功。
报酬矩阵如下:
合作博弈
企业 2
Invest Don’t
企业 1 Invest 50,50 0,45
Don’t 45,0 45,45
西南民族大学
同样存在两个纯策略纳什均衡:
( Invest,Invest) ( Don’t,Don’t)
每个企业都不是很清楚对方的决定
需要其他机制来解决个问题呢?
可能的机制:由于投资是有风险的,
所以需要一个确认( assurance) 机
制。或者一方承诺要投资(策略性行
动),或者一方率先投资(即序贯博
弈中的领头者)。
合作博弈
西南民族大学
同样存在两个纯策略纳什均衡:
( Invest,Invest) ( Don’t,Don’t)
每个企业都不是很清楚对方的决定
需要其他机制来解决个问题呢?
可能的机制:由于投资是有风险的,
所以需要一个确认( assurance) 机制
。或者一方承诺要投资(策略性行动
),或者一方率先投资(即序贯博弈
中的领头者)。
合作博弈
西南民族大学
通过前面的例子我们可以发现,确保博
弈中双方合作的机制是多种多样的。但有
两种机制是比较常见的:
承诺( commitment) 机制:我说了我要
做,我肯定会做。承诺机制是以名誉做后
盾的,一个过去经常毁约的人的承诺是没
有任何价值的。
序贯博弈机制:序贯博弈机制比承诺机
制更强,你先实际做了,希望后面的人会
跟着你做。
合作博弈
西南民族大学
跟合作博弈相反的是 竞争博弈(
competition game) 。 在竞争博弈中不
存在合作的可能性,由于存在利益冲
突,博弈一方的所得是以另一方的损
失为代价的。
一个典型的竞争博弈的例子是零和
博弈( zero-sum game)。 运动比赛、
收入分配、企业降价竞争等都可能是
零和博弈。
竞争博弈
西南民族大学
例一:零和博弈 —点球射门
攻方的目标是进球,守方的目标是
扑出尽可能多的球(少进球),在这
方面没合作的可能。
攻方的策略是:攻左边,或攻右边
守方的策略是:守左边,或守右边
(以守方的方向为准)
这是一个典型的同时博弈。
竞争博弈
西南民族大学
如果守方扑的方向正好是攻方进
攻的方向,那么球被扑出的可能性
就比较大,反之就较小。而从攻方
来说,则是要考虑如何做假动作迷
惑守方,使得守方判断失误。因此
,攻方肯定会选择混合策略,而不
会是纯策略。
竞争博弈
西南民族大学
假设报酬矩阵(成功的可能性)
如下:
竞争博弈
守方
守左边
(q)
守右边
(1-q)
攻方 攻左边
(p)
50,-50 80,-80
攻右边
(1-p)
90,-90 20,-20
西南民族大学
攻方的策略:如果攻方攻左边的
概率是 p,那么
如果守方守左边,攻方的预期报
酬是,50p+90(1-p)。
如果守方守右边,攻方的预期报
酬是,80p+20(1-p)。
攻方的目标是要实现预期报酬的
最大化(见下图)。
竞争博弈
西南民族大学
竞争博弈
0
100
90 80
62
0.7 1 p
成功的可能性
守方守左边
守方守右边
50
20
攻
方
的
策
略
西南民族大学
但是,守方知道攻方的企图,希望
采取相应的措施使得攻方的预期报酬
的最小化。比如说,如果守方确定攻
方的 p=50%的时候,守方会守右边;
在 p=90%的时候守左边。
攻方的目标因此修正为:实现守方
计算的最小攻方预期报酬的最大化(
the maximum of the minimum
payoffs),即 p=0.7。
竞争博弈
西南民族大学
竞争博弈
0
100
90 80
62
0.7 1 p
成功的可能性
守方守左边
守方守右边
50
20
守方计算的
最小攻方预
期报酬
西南民族大学
攻方的最大预期报酬的计算:
给定 p,攻方在守方守左边和右边的
预期报酬预期报酬相等。即 50p+90(1-
p)= 80p+20(1-p),得出 p=0.7。
这一结果反映了给定攻方最大化自
己的预期报酬,守方最小化攻方的预
期报酬(最大化守方的预期报酬)的
结果。
竞争博弈
西南民族大学
攻方的最佳策略同样可以建立在对
方策略选择的基础上。类似地,守方
也会选择混合策略,以防止攻方判断
其防守方向而攻其不备。
如果守方防守左边的概率是 q,
攻方攻击左边的预期报酬是
50q+80(1- q)
攻方攻击右边的预期报酬是
90q+20(1-q)( 见下图)
竞争博弈
西南民族大学
竞争博弈
0
100
80
90
62
0.6 1 q
成功的可能性
攻方攻左边
攻方攻右边
50
20
守
方
的
策
略
西南民族大学
在这里,给定守方的行为已经最
大化了守方的预期报酬(即最小化
了攻方的预期报酬),攻方如何实
现预期报酬的最大化。当 q较小
时,攻方会攻左边;当 q较大时,
攻方会攻右边。
守方将会选择最佳的 q来达到攻
方预期报酬的最小化,即 q=0.6。
竞争博弈
西南民族大学
竞争博弈
0
100
80
90
62
0.6 1 q
成功的可能性
攻方攻左边
攻方攻右边
50
20
守
方
的
策
略
西南民族大学
给定报酬矩阵,我们现在已经解
出了点球博弈中攻方和守方的混合
策略纳什均衡,即攻方攻击球门左
或右的概率为( 0.7,0.3),守方
防守球门左或右的概率为( 0.6,
0.4)。
竞争博弈
西南民族大学
?依存博弈( coexistence game), 依存
博弈介于竞争博弈与合作博弈之间,
博弈双方面临要么竞争要么合作的选
择。
一个典型的例子是鹰鸽博弈(
hawk-dove game)。 每个博弈人都有
鹰派好斗( hawkish) 和鸽派柔弱(
dovish) 的两面性,那么什么时候应该
表现出鹰派的一面,什么时候应该表
现出鸽派的一面呢?
依存博弈
西南民族大学
一个鹰鸽博弈通常应用在资源分配
上。如果两个人分一个比萨饼,有这
么几种可能性:
如果两个博弈人都是鸽派,平分;
如果一个鹰派,一个鸽派,鹰派独
得整个比萨饼;
如果两个都是鹰派,那么就可能打
得头破血流,报酬可能都为负。
依存博弈
西南民族大学
我们来看鹰鸽博弈的一个例子:
甲和乙分配¥ 4
依存博弈
乙
Hawk Dove
甲 Hawk -2,-2 4,0
Dove 0,4 2,2
西南民族大学
我们知道,合作(双方都表现为鸽
派)和决斗(双方都表现为鹰派)显
然都不是纳什均衡。纯策略纳什均衡
是( Hawk,Dove) 和( Dove,Hawk)
。 但这显然与我们观察到的现实生活
不符,再柔弱的人也有奋起反抗的时
候,反抗的结果也不全是同归于尽。
在现实生活中,一个更可能的均衡
是混合策略均衡。
依存博弈
西南民族大学
依存博弈的混合策略均衡:
可以这样分析依存博弈的混合策略均衡:
如果在一个现实生活中,一部分人( p )
比较好斗(鹰派),另一部分人( 1- p) 比
较温和(鸽派)。
在一个两人博弈中,好斗一方的预期报
酬( H) 取决于他的对手是鹰派还是鸽派,
即 H=-2p+4(1-p)。
类似地,温和一派的预期报酬( D):
D=0*p+2(1-p)=2(1-p)。
依存博弈
西南民族大学
混合策略均衡要求一个博弈人在选择好
斗或温和策略时的预期报酬相等。
在我们这个例子中,我们可以这么求
解,即鹰派和鸽派的预期报酬应该相等,
即 H=D。 如果 H>D,鹰派将会较快地繁衍
鹰派后代;如果 H<D,鸽派会占上风;只
有在 H=D时,鹰派占人口的比例( p) 才是
稳定的。
从 H=D得出,p=1/2。
依存博弈
西南民族大学
p=1/2是一个混合策略纳什均衡。
我们也将这样的均衡叫做演进稳
态策略( evolutionarily stable
strategy)。
一个重要的博弈论分支叫作演进
博弈( evolutionary game theory)
依存博弈
西南民族大学
依存博弈的混合策略均衡也可以用下图
来表示:
依存博弈
预期报酬
2
4
10.5 p
鹰派的预期报酬 ( H)
鸽派的预期报酬 ( D)
西南民族大学
承诺博弈( commitment game),
前面我们提到序贯博弈可以解决同时
博弈中出现多个纳什均衡问题。事先
承诺( commitment) 通常是解决同时
博弈中信息不充分的一个重要策略。
一旦博弈一方作出承诺,博弈双方的
决策时间就有了先后,同时博弈就变
成了序贯博弈,承诺方是领头者,另
一方是跟从者。
承诺博弈
西南民族大学
承诺是有价值的。
承诺使得博弈人可以通过限制自
己在未来的行为中获益,因为这样
的承诺改变了博弈另一方的行为,
这样的改变有利于承诺方。有了这
样的承诺,博弈人放弃了一部分未
来的选择。
承诺博弈
西南民族大学
承诺机制:事先承诺事后履行通常是
困难的。需要什么样的承诺机制呢?
承诺必须是不可逆的、众所周知的。
法律、社会道德和压力、名誉、重复博
弈等都可以帮助承诺方履行自己的承诺。
为了提高承诺的可信度,承诺方通常会
采取一些行动,例如现在采取一些可以限
制未来选择的行动,或改变激励机制从而
改变承诺方未来的行为。
承诺博弈
西南民族大学
例:青蛙与蝎子
在这个博弈中,蝎子要青蛙帮忙渡江,
青蛙也乐于帮忙,青蛙的唯一要求是蝎子
不能在渡江途中叮它。
只有在蝎子承诺在渡江途中不叮青蛙,
青蛙才可能帮这个忙。
蝎子承诺了,并且这个承诺是可信的
( credible),因为如果蝎子叮青蛙的话,
蝎子和青蛙都有灭顶之灾,蝎子应该不会
拿生命开玩笑。
承诺博弈
西南民族大学
但是,蝎子在渡江途中还是忍不住
叮了青蛙,于是蝎子与青蛙都沉入江
底。
那么,青蛙犯了什么错误呢?
青蛙的错误是轻信了蝎子的承诺。
因为对蝎子来说,叮青蛙是它的本
能,叮青蛙所带来的效用大于其生命
的价值(见下页图)。如果青蛙了解
到这一点,就不会送蝎子过江。
承诺博弈
西南民族大学
?青蛙与蝎子博弈树形图
承诺博弈
蝎子
Sting (-10,5)
Carry
Don’t
Refuse
(5,3)
(0,0)
青蛙先
西南民族大学
为使青蛙同意帮蝎子过江,需要一
个可信的承诺机制,即青蛙或蝎子需
要采取一些行动来降低蝎子叮青蛙所
带来的“报酬”。
这些行动包括雇佣一只青蛙打手,
如果蝎子叮了青蛙,这只青蛙打手就
会对青蛙的家人实施报复,如果这只
蝎子在意家人的话,这样的报复降低
了蝎子叮青蛙带来的好处。
承诺博弈