中级微观经济学
Intermediate Microeconomics
? Copyright by zheng changde 2004
All rights reserved.
SWUN
6.博弈论
Game Theory
西南民族大学
?问题的提出
?博弈论基础
?纳什均衡
?囚犯困局
?序贯博弈
?纯策略博弈
?混合策略博弈
?重复博弈
Game Theory
西南民族大学
博弈论是分析企业和个人行为的一个重
要工具,在分析企业与企业或个人与个人
之间的互动的时候尤为重要。
博弈论( game theory) 研究企业或个人
( agent) 的策略行为( strategic behavior
),这些策略行为取决于其他企业或个人
的行动( action) 互相依存又互相影响。
Motivation
西南民族大学
非合作博弈( non-cooperative game)
,在非合作博弈中,不存在通过谈判协商
( negotiation) 或有约束力的合约(
binding contract) 的方式限制局中人的行
为。我们这里讨论的一般为非合作博弈
合作博弈( cooperative game ),在合
作博弈中,局中人通过谈判一个有约束力
的合约来实现其联合策略。
Motivation
西南民族大学
博弈论可以帮助我们分析存在两个或数
个行为主体时的最佳策略。如分析在存在
寡头垄断时一个企业的行为,以及不同企
业行为之间的相互影响。
博弈论应用的例子包括对寡头垄断行为
的分析,对外部性的分析,对军事策略的
分析,等等。
Motivation
西南民族大学
例:,How to win Friends and
Influence People”( Dale Carnegie,1936)
1,Show respect for the other person's opinions,
2,Get the other person saying "yes,yes" immediately,
3,Let the other person do a great deal of the talking,
4,Let the other person feel that the idea is his or hers,
5,Try honestly to see things from the other person's
point of view,
6,Be sympathetic with the other person's ideas and
desires,
Motivation
西南民族大学
例:,Nash’s Bargaining Solution”
You will negotiate well when:
?You seem more willing to risk conflict
?Concessions would hurt you a lot
?You have less to lose from conflict
?You can make credible THREATS
Motivation
西南民族大学
例,国内飞机机票降价规定可行吗?
按照国家发展和改革委员会最近公
布的新运价方案,机票价格最大下浮
幅度是 40%。
南航、东航、国航、上航等几大企
业,在新票价方案公布之前曾有一次
盟约:上海始发航班散客票价最低不
得低于 8.5折。
Motivation
西南民族大学
一个完整的博弈包括以下要素:
局中人( players), 两个以上。
规则:谁在什么时候行动?如何
行动?每个局中人有至少两个以上
可供选择的 策略( strategies) 。
结果:每个可能的策略都有一个
相应的 报酬( payoffs) 。 一个假设
是局中人偏好于报酬高的结果。
博弈论基础
西南民族大学
作为博弈论的介绍,我们主要讨
论 两人博弈( two-player game) 模
型,即每个博弈只有两个局中人。
同时,我们也假设每个局中人只
有两个可供选择的策略。
博弈论基础
西南民族大学
两人博弈的一个例子:
我们将两个局中人叫做 A和 B。
A有两个(策略)选择:上( up)
或下( down)。
B有两个选择:左( left) 或右(
right)。
说明:( 1) A和 B的策略选择可以相同
也可以不同;( 2)每个策略选择可以被看
作是一个投资决定或者利益分配计划。
博弈论基础
西南民族大学
两人博弈的一个例子(续):
两个局中人,每个局中人各有两个
选择,结果有四个不同的策略选择组
合:上左,上右,下左,下右。
每个策略组合中,每个局中人的报
酬已知,见下页 报酬矩阵( payoff
matrix) 或一般形式( normal form)
。
博弈论基础
西南民族大学
This is the
game’s
payoff matrix.
Player B
Player A
通常的表达方式是,第一个局中人的报
酬在前,第二个局中人的报酬在后。
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
博弈论基础
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
报酬矩阵也可以用 展开式( extensive form)
或树形图( tree diagram) 来表示。
博弈论基础
信息集( information set)
决策结( decision
node)
西南民族大学
信息集( information set) 表明了哪
一个局中人应该作决定,并且个局中
人作决定所掌握的信息。
充分信息( perfect information):
一个信息集里只有一个决策结。
不充分信息( imperfect information
),一个信息集有多个决策结。局中
人不能区分其作决策时位于哪个决策
结。
博弈论基础
西南民族大学
报酬矩阵与展开形式之间的关系:
一个展开形式肯定有唯一相对应
的报酬矩阵;
但一个报酬矩阵可能反映多个展
开形式。如下面两个不同的展开形
式有相同的报酬矩阵。
博弈论基础
西南民族大学
U D
L LR R
(3,9) (1,8) (2,1) (2,1)
A
B B
博弈论基础
展开形式一
西南民族大学
U D
L R
(3,9) (1,8)
(2,1)
A
B
博弈论基础
展开形式二
西南民族大学
前面我们讨论了一个博弈的表达
形式。
现在我们来解这个两人博弈,即
每个局中人的最佳策略是什么?
我们还是用前面的那个例子。
纳什均衡
西南民族大学
E.g,if A plays Up and B plays Right then
A’s payoff is 1 and B’s payoff is 8.
This is the
game’s
payoff matrix.
Player B
Player A
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
And if A plays Down and B plays Right
then A’s payoff is 2 and B’s payoff is 1.
This is the
game’s
payoff matrix.
Player B
Player A
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
两个局中人的策略组合表示为 (U,R),
括号中第一个字母是 A选择的策略代码,
第二个字母是 B选择的策略代码。
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
这个博弈的结果会是什么样的呢?
Player B
Player A
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
Is (U,R) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
If B plays Right then A’s best reply is Down
since this improves A’s payoff from 1 to 2.
So (U,R) is not a likely play.
Is (U,R) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
Is (D,R) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
If B plays Right then A’s best reply is Down.
If A plays Down then B’s best reply is Right.
So (D,R) is a likely play.
Is (D,R) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
Is (D,L) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
If A plays Down then B’s best reply is Right,
so (D,L) is not a likely play.
Is (D,L) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
Is (U,L) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
If A plays Up then B’s best reply is Left.
If B plays Left then A’s best reply is Up.
So (U,L) is a likely play.
Is (U,L) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
纳什均衡( Nash Equilibrium),
如果给定 B的策略选择,A的选择是
最佳策略( optimal strategy); 同
样地,给定 A的选择,B的选择也是
最佳的,这样的策略组合就叫做纳
什均衡。
纳什均衡
西南民族大学
?Nash Equilibrium:
?“I’m doing the best I can given what
you are doing”
?“You’re doing the best you can given
what I am doing.”
纳什均衡
西南民族大学
在我们前面的例子中,存在两个纳
什均衡:( U,L) 和( D,R)。
如果 A选了上,B会选左;
如果 A选了下,B会选右。
反过来,B选左,A会选上; B选右,A
会选下。
?说明:在这个博弈中,A和 B的选择是
同时进行的。
纳什均衡
西南民族大学
Player B
Player A
(U,L) and (D,R) are both Nash equilibria for
the game.
结论:一个博弈中可能存在多个纳什均衡。
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
事实上,在上个例子的两个纳什均
衡中,两个局中人都倾向于( U,L)
这个均衡,因为这个均衡为两者带来
的报酬都较高,我们把它叫做帕累多
偏好均衡( Pareto-preferred
equilibrium)。
问题是这两个局中人会不会肯定同
时选( U,L) 呢?
纳什均衡
西南民族大学
在回答前面这个问题之前,我们再
看一个例子,这就是著名的囚犯困局
( the prisoner’s dilemma)。
这个例子是这样的,两个嫌疑犯同
时被捕,并被隔离审问。这两个囚犯
都有两个选择:坦白( confess) 还是
不坦白 (deny)他们的罪行。问题是:在
互相不知道对方的选择的情况下,应
该坦白还是不坦白呢?
囚犯困局
西南民族大学
对这两个囚犯的惩罚(或者负的报
酬)是:
如果两个人都坦白,两个人的罪行
一样重;
如果一个坦白,一个不坦白,前者
处罚较轻,后者处罚较重;
如果两个人都不坦白,则因为没有
证据,两个人的处罚较都坦白时轻。
囚犯困局
西南民族大学
这两个囚犯会作什么样的选择呢?
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
Deny
Confess
Deny Confess
囚犯困局
西南民族大学
如果甲不坦白,乙的最佳选择是坦白。
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
西南民族大学
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
如果甲不坦白,乙的最佳选择是坦白。
如果甲坦白,乙的最佳选择还是坦白。
西南民族大学
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
所以不管甲怎么做,乙的最佳选择都是坦白。
对乙来讲,坦白是一个 主导性的策略
( dominant strategy) 。
西南民族大学
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
反过来也成立,即不管乙怎么做,
对甲来讲,坦白也是一 个主导性的策略 。
西南民族大学
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
所以,在这个博弈中,只有一个唯一的纳什
均衡,即( C,C)。 但由于( D,D) 的回报
较高,这个纳什均衡是 不效率的( inefficient) 。
西南民族大学
在前面两个例子中,两个局中人同
时决定他们的策略,这样的博弈叫 同
时博弈( simultaneous play game) 。
我们知道同时博弈时,每个博弈的
信息是充分的,或不对称的(
asymmetric information)。
博弈论基础
西南民族大学
在有些博弈中,一个局中人先于另一
个局中人决定其策略,这样的博弈叫
序贯博弈( sequential play game) 。
在序贯博弈中,先决定策略的那个
局中人叫领头者 ( leader),后决定策
略的叫跟从者( follower)。
博弈论基础
西南民族大学
在同时博弈时,一个博弈有多个纳
什均衡,很难说哪个均衡更有可能发
生。
如果这样的博弈是一个序贯博弈,
我们可以决定哪个均衡更有可能发生
。
这里我们讨论一个序贯博弈时的一
个均衡例子 。
序贯博弈
西南民族大学
Player B
Player A
(U,L) and (D,R) are both Nash equilibria
when this game is played simultaneously
and we have no way of deciding which
equilibrium is more likely to occur.
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
序贯博弈
西南民族大学
Player B
Player A
Suppose instead that the game is played
sequentially,with A leading and B following.
We can rewrite the game in its extensive
Form.
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
(U,L) is a Nash equilibrium.
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
(U,L) is a Nash equilibrium.
(D,R) is a Nash equilibrium.
Which is more likely to occur?
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
If A plays U then B plays L; A gets 3.
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
If A plays U then B plays L; A gets 3.
If A plays D then B plays R; A gets 2.
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
If A plays U then B plays L; A gets 3.
If A plays D then B plays R; A gets 2.
So (U,L) is the likely Nash equilibrium.
序贯博弈
西南民族大学
这种由结果反推局中人的最佳策
略的方法叫逆向归纳( backword
induction) 法。
这种方法在博弈论中的应用非常
普遍。
序贯博弈
西南民族大学
Player B
Player A
This is our original example once more.
Suppose again that play is simultaneous.
We discovered that the game has two Nash
equilibria; (U,L) and (D,R).
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纯策略博弈
西南民族大学
Player B
Player A
Player A’s has been thought of as choosing
to play either U or D,but no combination of
both; that is,as playing purely U or D.
U and D are Player A’s pure strategies
( 纯策略),
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纯策略博弈
西南民族大学
Player B
Player A
Similarly,L and R are Player B’s pure
strategies.
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纯策略博弈
西南民族大学
Player B
Player A
Consequently,(U,L) and (D,R) are pure
strategy Nash equilibria,Must every game
have at least one pure strategy Nash
equilibrium?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纯策略博弈
西南民族大学
Player B
Player A
Here is a new game,Are there any pure
strategy Nash equilibria?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium? No.
Is (U,R) a Nash equilibrium?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium? No.
Is (U,R) a Nash equilibrium? No.
Is (D,L) a Nash equilibrium?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium? No.
Is (U,R) a Nash equilibrium? No.
Is (D,L) a Nash equilibrium? No.
Is (D,R) a Nash equilibrium?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium? No.
Is (U,R) a Nash equilibrium? No.
Is (D,L) a Nash equilibrium? No.
Is (D,R) a Nash equilibrium? No.
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
在纯策略 博弈时,不一定存在纳什均衡。
只有在混合 策略 博弈时,至少存在一个
纳什均衡。
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
?除了纯策略 Up和 Down之外,A可以选
择一个概率分布 (pU,1-pU),即 A选择
Up的概率是 pU,选择 Down的概率是 1-
pU。
?在这样的情况下,A选择的是介于纯策
略 Up和 纯策略 Down之间的一个 混合策
略( mixed strategy), 表示为,(pU,
1-pU) 。
混合策略博弈
西南民族大学
类似地, B也可以选择概率分布
(pL,1-pL),即介于纯策略 Left和 纯
策略 Right之间的混合策略。
混合策略博弈
西南民族大学
Player A
This game has no pure strategy Nash
equilibria but it does have a Nash
equilibrium in mixed strategies,How is it
computed?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
Player B
混合策略博弈
西南民族大学
Player A
If B plays Left her expected payoff( 预期报
酬) is
2 5 1p pU U? ?( )
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
If B plays Left her expected payoff is
If B plays Right her expected payoff is
2 5 1p pU U? ?( ).
4 2 1p pU U? ?( ).
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
2 5 1 4 2 1p p p pU U U U? ? ? ? ?( ) ( )If then
B would play only Left,But there are no
Nash equilibria in which B plays only Left,
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
2 5 1 4 2 1p p p pU U U U? ? ? ? ?( ) ( )If then
B would play only Right,But there are no
Nash equilibria in which B plays only Right,
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,B
must be indifferent between playing Left or
Right; i.e.
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
2 5 1 4 2 1p p p pU U U U? ? ? ? ?( ) ( )
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,B
must be indifferent between playing Left or
Right; i.e,2 5 1 4 2 1
3 5
p p p p
p
U U U U
U
? ? ? ? ?
? ?
( ) ( )
/,
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,B
must be indifferent between playing Left or
Right; i.e,2 5 1 4 2 1
3 5
p p p p
p
U U U U
U
? ? ? ? ?
? ?
( ) ( )
/,
(1,2) (0,4)
(0,5) (3,2)
U,
D,
L,pL R,1-pL
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
If A plays Up his expected payoff is
.)1(01 LLL p?p???p?
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
If A plays Up his expected payoff is
If A plays Down his expected payoff is
).1(3)1(30 LLL p??p???p?
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
.)1(01 LLL p?p???p?
Player B
混合策略博弈
西南民族大学
Player A
p pL L? ?3 1( )If then A would play only Up.
But there are no Nash equilibria in which A
plays only Up,
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
If
Down,But there are no Nash equilibria in
which A plays only Down,
p pL L? ?3 1( )then A would play only
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,A
must be indifferent between playing Up or
Down; i.e.p pL L? ?3 1( )
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,A
must be indifferent between playing Up or
Down; i.e.p p pL L L? ? ? ?3 1 3 4( ) /,
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,A
must be indifferent between playing Up or
Down; i.e.p p pL L L? ? ? ?3 1 3 4( ) /,
(1,2) (0,4)
(0,5) (3,2)
L,R,
U,
D,
5
3
5
2
4
3
4
1Player B
混合策略博弈
西南民族大学
Player B
Player A
So the game’s only Nash equilibrium has A
playing the mixed strategy (3/5,2/5) and has
B playing the mixed strategy (3/4,1/4).
(1,2) (0,4)
(0,5) (3,2)
U,
D,
5
3
5
2
L,R,4
3
4
1
混合策略博弈
西南民族大学
Player B
Player A
The payoffs will be (1,2) with probability3
5
3
4
9
20? ?
(1,2) (0,4)
(0,5) (3,2)
U,
D,
L,R,4
3
4
1
5
3
5
2 9/20
混合策略博弈
西南民族大学
Player B
Player A
The payoffs will be (0,4) with probability3
5
1
4
3
20? ?
(0,4)
(0,5) (3,2)
U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
混合策略博弈
西南民族大学
Player B
Player A
The payoffs will be (0,5) with probability2
5
3
4
6
20? ?
(0,4)
(0,5)
U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
6/20 (3,2)
混合策略博弈
西南民族大学
Player B
Player A
The payoffs will be (3,2) with probability2
5
1
4
2
20? ?
(0,4)U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
(0,5) (3,2)
6/20 2/20
混合策略博弈
西南民族大学
Player B
Player A
(0,4)U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
(0,5) (3,2)
6/20 2/20
混合策略博弈
西南民族大学
Player B
Player A
A’s expected Nash equilibrium payoff is
1 920 0 320 0 620 3 220 34? ? ? ? ? ? ? ?,
(0,4)U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
(0,5) (3,2)
6/20 2/20
混合策略博弈
西南民族大学
Player B
Player A
A’s expected Nash equilibrium payoff is
1 920 0 320 0 620 3 220 34? ? ? ? ? ? ? ?,
B’s expected Nash equilibrium payoff is
2 920 4 320 5 620 2 220 165? ? ? ? ? ? ? ?,
(0,4)U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
(0,5) (3,2)
6/20 2/20
混合策略博弈
西南民族大学
如果一个博弈有有限个局中人,
每个局中人有有限的纯策略,那么
这个博弈至少有一个纳什均衡。
如果这个博弈没有纯策略纳什均
衡,至少有一个混合策略纳什均衡
。
混合策略博弈
西南民族大学
我们现在回到开始时讨论的航空公
司的价格联盟问题。
为方便讨论,我们假设只有两家航
空公司:南航和东航。这两家公司的
盟约是:上海始发航班散客票价最低
不得低于 8.5折。
这两家公司都有两个可能的策略:
遵守盟约(即诚实)或不遵守盟约(
即欺骗)。假设的报酬矩阵见下页。
重复博弈
西南民族大学
H-honest
C-Cheat
南航
东航
我们知道,尽管( H,H) 的报酬都较高,
这个博弈的唯一纳什均衡是( C,C)。
H C
H
C
(5,5)
(8,-2)
(-2,8)
(2,2)
重复博弈
西南民族大学
单一博弈( one-shot game), 两个
局中人之间只博弈一次。前面的例子
是一个典型的单一博弈的结果。在单
一博弈中,合作是很难建立的。
重复博弈( repeated game), 同样
的局中人、同样的博弈重复进行多次
。在重复博弈中,合作是可能的。
重复博弈
西南民族大学
重复博弈可以促进合作(或诚实)主要
是因为,现在的合作是为了以后的合作,
或者说,对现在的不合作或欺骗的惩罚是
以后的不合作。当合作的报酬大于不合作
的报酬时,合作是一个较佳的策略。
在重复博弈中,重复博弈的次数可以是
有限的数次,也可以是无数次。在这两种
情况下,结果是不同的 。
重复博弈
西南民族大学
如果重复博弈的次数是有限的数次,比
如说 5次,情况会怎么样呢?
我们先看最后一次博弈,因为博弈双方
都知道这是最后一次,结果跟单一博弈时
一样,即( C,C)。
第四次博弈时,双方知道以后不会有合
作,所以最佳策略也是( C,C)。
如此反推,在第一次时也不会有合作。
重复博弈
西南民族大学
只有在重复博弈次数无限的时候
,合作才有可能。
如果你的对手现在选择 C( 欺骗
),在以后的博弈你永远会选 C。
只要博弈双方都在意以后的报酬
,那么彼此都有积极性在当前博弈
中选 H。
重复博弈
西南民族大学
重复博弈的机制,即所谓的“针锋相对
”策略( tit-for-tat strategy),是:
在第一次博弈中,局中人一选 H;
在以后的每次博弈中,只要在前一次博
弈中局中人二也是选 H,局中人一继续选 H;
一旦在前一次博弈中局中人二选了 C,局
中人一在当前博弈中肯定选 C。
反之亦然。
重复博弈
西南民族大学
声誉( reputation) 的价值:如果你有诚
实的名誉,你现在的合作伙伴很可能也会
选择诚实,你就会享受合作的成果。推而
广之,你的新的合作伙伴也有较大的可能
性会选择诚实。
“It helps with your customers,
suppliers,and employees,Your
reputation is everything,and should
be protected at any cost.” David
Glass,CEO,Wal-Mart.
重复博弈
Intermediate Microeconomics
? Copyright by zheng changde 2004
All rights reserved.
SWUN
6.博弈论
Game Theory
西南民族大学
?问题的提出
?博弈论基础
?纳什均衡
?囚犯困局
?序贯博弈
?纯策略博弈
?混合策略博弈
?重复博弈
Game Theory
西南民族大学
博弈论是分析企业和个人行为的一个重
要工具,在分析企业与企业或个人与个人
之间的互动的时候尤为重要。
博弈论( game theory) 研究企业或个人
( agent) 的策略行为( strategic behavior
),这些策略行为取决于其他企业或个人
的行动( action) 互相依存又互相影响。
Motivation
西南民族大学
非合作博弈( non-cooperative game)
,在非合作博弈中,不存在通过谈判协商
( negotiation) 或有约束力的合约(
binding contract) 的方式限制局中人的行
为。我们这里讨论的一般为非合作博弈
合作博弈( cooperative game ),在合
作博弈中,局中人通过谈判一个有约束力
的合约来实现其联合策略。
Motivation
西南民族大学
博弈论可以帮助我们分析存在两个或数
个行为主体时的最佳策略。如分析在存在
寡头垄断时一个企业的行为,以及不同企
业行为之间的相互影响。
博弈论应用的例子包括对寡头垄断行为
的分析,对外部性的分析,对军事策略的
分析,等等。
Motivation
西南民族大学
例:,How to win Friends and
Influence People”( Dale Carnegie,1936)
1,Show respect for the other person's opinions,
2,Get the other person saying "yes,yes" immediately,
3,Let the other person do a great deal of the talking,
4,Let the other person feel that the idea is his or hers,
5,Try honestly to see things from the other person's
point of view,
6,Be sympathetic with the other person's ideas and
desires,
Motivation
西南民族大学
例:,Nash’s Bargaining Solution”
You will negotiate well when:
?You seem more willing to risk conflict
?Concessions would hurt you a lot
?You have less to lose from conflict
?You can make credible THREATS
Motivation
西南民族大学
例,国内飞机机票降价规定可行吗?
按照国家发展和改革委员会最近公
布的新运价方案,机票价格最大下浮
幅度是 40%。
南航、东航、国航、上航等几大企
业,在新票价方案公布之前曾有一次
盟约:上海始发航班散客票价最低不
得低于 8.5折。
Motivation
西南民族大学
一个完整的博弈包括以下要素:
局中人( players), 两个以上。
规则:谁在什么时候行动?如何
行动?每个局中人有至少两个以上
可供选择的 策略( strategies) 。
结果:每个可能的策略都有一个
相应的 报酬( payoffs) 。 一个假设
是局中人偏好于报酬高的结果。
博弈论基础
西南民族大学
作为博弈论的介绍,我们主要讨
论 两人博弈( two-player game) 模
型,即每个博弈只有两个局中人。
同时,我们也假设每个局中人只
有两个可供选择的策略。
博弈论基础
西南民族大学
两人博弈的一个例子:
我们将两个局中人叫做 A和 B。
A有两个(策略)选择:上( up)
或下( down)。
B有两个选择:左( left) 或右(
right)。
说明:( 1) A和 B的策略选择可以相同
也可以不同;( 2)每个策略选择可以被看
作是一个投资决定或者利益分配计划。
博弈论基础
西南民族大学
两人博弈的一个例子(续):
两个局中人,每个局中人各有两个
选择,结果有四个不同的策略选择组
合:上左,上右,下左,下右。
每个策略组合中,每个局中人的报
酬已知,见下页 报酬矩阵( payoff
matrix) 或一般形式( normal form)
。
博弈论基础
西南民族大学
This is the
game’s
payoff matrix.
Player B
Player A
通常的表达方式是,第一个局中人的报
酬在前,第二个局中人的报酬在后。
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
博弈论基础
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
报酬矩阵也可以用 展开式( extensive form)
或树形图( tree diagram) 来表示。
博弈论基础
信息集( information set)
决策结( decision
node)
西南民族大学
信息集( information set) 表明了哪
一个局中人应该作决定,并且个局中
人作决定所掌握的信息。
充分信息( perfect information):
一个信息集里只有一个决策结。
不充分信息( imperfect information
),一个信息集有多个决策结。局中
人不能区分其作决策时位于哪个决策
结。
博弈论基础
西南民族大学
报酬矩阵与展开形式之间的关系:
一个展开形式肯定有唯一相对应
的报酬矩阵;
但一个报酬矩阵可能反映多个展
开形式。如下面两个不同的展开形
式有相同的报酬矩阵。
博弈论基础
西南民族大学
U D
L LR R
(3,9) (1,8) (2,1) (2,1)
A
B B
博弈论基础
展开形式一
西南民族大学
U D
L R
(3,9) (1,8)
(2,1)
A
B
博弈论基础
展开形式二
西南民族大学
前面我们讨论了一个博弈的表达
形式。
现在我们来解这个两人博弈,即
每个局中人的最佳策略是什么?
我们还是用前面的那个例子。
纳什均衡
西南民族大学
E.g,if A plays Up and B plays Right then
A’s payoff is 1 and B’s payoff is 8.
This is the
game’s
payoff matrix.
Player B
Player A
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
And if A plays Down and B plays Right
then A’s payoff is 2 and B’s payoff is 1.
This is the
game’s
payoff matrix.
Player B
Player A
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
两个局中人的策略组合表示为 (U,R),
括号中第一个字母是 A选择的策略代码,
第二个字母是 B选择的策略代码。
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
这个博弈的结果会是什么样的呢?
Player B
Player A
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
Is (U,R) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
If B plays Right then A’s best reply is Down
since this improves A’s payoff from 1 to 2.
So (U,R) is not a likely play.
Is (U,R) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
Is (D,R) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
If B plays Right then A’s best reply is Down.
If A plays Down then B’s best reply is Right.
So (D,R) is a likely play.
Is (D,R) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
Is (D,L) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
If A plays Down then B’s best reply is Right,
so (D,L) is not a likely play.
Is (D,L) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
Is (U,L) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
Player B
Player A
If A plays Up then B’s best reply is Left.
If B plays Left then A’s best reply is Up.
So (U,L) is a likely play.
Is (U,L) a
likely play?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
纳什均衡( Nash Equilibrium),
如果给定 B的策略选择,A的选择是
最佳策略( optimal strategy); 同
样地,给定 A的选择,B的选择也是
最佳的,这样的策略组合就叫做纳
什均衡。
纳什均衡
西南民族大学
?Nash Equilibrium:
?“I’m doing the best I can given what
you are doing”
?“You’re doing the best you can given
what I am doing.”
纳什均衡
西南民族大学
在我们前面的例子中,存在两个纳
什均衡:( U,L) 和( D,R)。
如果 A选了上,B会选左;
如果 A选了下,B会选右。
反过来,B选左,A会选上; B选右,A
会选下。
?说明:在这个博弈中,A和 B的选择是
同时进行的。
纳什均衡
西南民族大学
Player B
Player A
(U,L) and (D,R) are both Nash equilibria for
the game.
结论:一个博弈中可能存在多个纳什均衡。
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纳什均衡
西南民族大学
事实上,在上个例子的两个纳什均
衡中,两个局中人都倾向于( U,L)
这个均衡,因为这个均衡为两者带来
的报酬都较高,我们把它叫做帕累多
偏好均衡( Pareto-preferred
equilibrium)。
问题是这两个局中人会不会肯定同
时选( U,L) 呢?
纳什均衡
西南民族大学
在回答前面这个问题之前,我们再
看一个例子,这就是著名的囚犯困局
( the prisoner’s dilemma)。
这个例子是这样的,两个嫌疑犯同
时被捕,并被隔离审问。这两个囚犯
都有两个选择:坦白( confess) 还是
不坦白 (deny)他们的罪行。问题是:在
互相不知道对方的选择的情况下,应
该坦白还是不坦白呢?
囚犯困局
西南民族大学
对这两个囚犯的惩罚(或者负的报
酬)是:
如果两个人都坦白,两个人的罪行
一样重;
如果一个坦白,一个不坦白,前者
处罚较轻,后者处罚较重;
如果两个人都不坦白,则因为没有
证据,两个人的处罚较都坦白时轻。
囚犯困局
西南民族大学
这两个囚犯会作什么样的选择呢?
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
Deny
Confess
Deny Confess
囚犯困局
西南民族大学
如果甲不坦白,乙的最佳选择是坦白。
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
西南民族大学
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
如果甲不坦白,乙的最佳选择是坦白。
如果甲坦白,乙的最佳选择还是坦白。
西南民族大学
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
所以不管甲怎么做,乙的最佳选择都是坦白。
对乙来讲,坦白是一个 主导性的策略
( dominant strategy) 。
西南民族大学
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
反过来也成立,即不管乙怎么做,
对甲来讲,坦白也是一 个主导性的策略 。
西南民族大学
乙
甲
(-5,-5) (-30,-1)
(-1,-30) (-10,-10)
D
C
D C
囚犯困局
所以,在这个博弈中,只有一个唯一的纳什
均衡,即( C,C)。 但由于( D,D) 的回报
较高,这个纳什均衡是 不效率的( inefficient) 。
西南民族大学
在前面两个例子中,两个局中人同
时决定他们的策略,这样的博弈叫 同
时博弈( simultaneous play game) 。
我们知道同时博弈时,每个博弈的
信息是充分的,或不对称的(
asymmetric information)。
博弈论基础
西南民族大学
在有些博弈中,一个局中人先于另一
个局中人决定其策略,这样的博弈叫
序贯博弈( sequential play game) 。
在序贯博弈中,先决定策略的那个
局中人叫领头者 ( leader),后决定策
略的叫跟从者( follower)。
博弈论基础
西南民族大学
在同时博弈时,一个博弈有多个纳
什均衡,很难说哪个均衡更有可能发
生。
如果这样的博弈是一个序贯博弈,
我们可以决定哪个均衡更有可能发生
。
这里我们讨论一个序贯博弈时的一
个均衡例子 。
序贯博弈
西南民族大学
Player B
Player A
(U,L) and (D,R) are both Nash equilibria
when this game is played simultaneously
and we have no way of deciding which
equilibrium is more likely to occur.
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
序贯博弈
西南民族大学
Player B
Player A
Suppose instead that the game is played
sequentially,with A leading and B following.
We can rewrite the game in its extensive
Form.
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
(U,L) is a Nash equilibrium.
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
(U,L) is a Nash equilibrium.
(D,R) is a Nash equilibrium.
Which is more likely to occur?
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
If A plays U then B plays L; A gets 3.
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
If A plays U then B plays L; A gets 3.
If A plays D then B plays R; A gets 2.
序贯博弈
西南民族大学
U D
L LR R
(3,9) (1,8) (0,0) (2,1)
A
B B
A plays first.
B plays second.
If A plays U then B plays L; A gets 3.
If A plays D then B plays R; A gets 2.
So (U,L) is the likely Nash equilibrium.
序贯博弈
西南民族大学
这种由结果反推局中人的最佳策
略的方法叫逆向归纳( backword
induction) 法。
这种方法在博弈论中的应用非常
普遍。
序贯博弈
西南民族大学
Player B
Player A
This is our original example once more.
Suppose again that play is simultaneous.
We discovered that the game has two Nash
equilibria; (U,L) and (D,R).
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纯策略博弈
西南民族大学
Player B
Player A
Player A’s has been thought of as choosing
to play either U or D,but no combination of
both; that is,as playing purely U or D.
U and D are Player A’s pure strategies
( 纯策略),
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纯策略博弈
西南民族大学
Player B
Player A
Similarly,L and R are Player B’s pure
strategies.
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纯策略博弈
西南民族大学
Player B
Player A
Consequently,(U,L) and (D,R) are pure
strategy Nash equilibria,Must every game
have at least one pure strategy Nash
equilibrium?
L R
U
D
(3,9)
(0,0)
(1,8)
(2,1)
纯策略博弈
西南民族大学
Player B
Player A
Here is a new game,Are there any pure
strategy Nash equilibria?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium? No.
Is (U,R) a Nash equilibrium?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium? No.
Is (U,R) a Nash equilibrium? No.
Is (D,L) a Nash equilibrium?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium? No.
Is (U,R) a Nash equilibrium? No.
Is (D,L) a Nash equilibrium? No.
Is (D,R) a Nash equilibrium?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
Is (U,L) a Nash equilibrium? No.
Is (U,R) a Nash equilibrium? No.
Is (D,L) a Nash equilibrium? No.
Is (D,R) a Nash equilibrium? No.
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
Player B
Player A
在纯策略 博弈时,不一定存在纳什均衡。
只有在混合 策略 博弈时,至少存在一个
纳什均衡。
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
纯策略博弈
西南民族大学
?除了纯策略 Up和 Down之外,A可以选
择一个概率分布 (pU,1-pU),即 A选择
Up的概率是 pU,选择 Down的概率是 1-
pU。
?在这样的情况下,A选择的是介于纯策
略 Up和 纯策略 Down之间的一个 混合策
略( mixed strategy), 表示为,(pU,
1-pU) 。
混合策略博弈
西南民族大学
类似地, B也可以选择概率分布
(pL,1-pL),即介于纯策略 Left和 纯
策略 Right之间的混合策略。
混合策略博弈
西南民族大学
Player A
This game has no pure strategy Nash
equilibria but it does have a Nash
equilibrium in mixed strategies,How is it
computed?
(1,2) (0,4)
(0,5) (3,2)
U
D
L R
Player B
混合策略博弈
西南民族大学
Player A
If B plays Left her expected payoff( 预期报
酬) is
2 5 1p pU U? ?( )
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
If B plays Left her expected payoff is
If B plays Right her expected payoff is
2 5 1p pU U? ?( ).
4 2 1p pU U? ?( ).
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
2 5 1 4 2 1p p p pU U U U? ? ? ? ?( ) ( )If then
B would play only Left,But there are no
Nash equilibria in which B plays only Left,
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
2 5 1 4 2 1p p p pU U U U? ? ? ? ?( ) ( )If then
B would play only Right,But there are no
Nash equilibria in which B plays only Right,
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,B
must be indifferent between playing Left or
Right; i.e.
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
2 5 1 4 2 1p p p pU U U U? ? ? ? ?( ) ( )
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,B
must be indifferent between playing Left or
Right; i.e,2 5 1 4 2 1
3 5
p p p p
p
U U U U
U
? ? ? ? ?
? ?
( ) ( )
/,
(1,2) (0,4)
(0,5) (3,2)
U,pU
D,1-pU
L,pL R,1-pL
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,B
must be indifferent between playing Left or
Right; i.e,2 5 1 4 2 1
3 5
p p p p
p
U U U U
U
? ? ? ? ?
? ?
( ) ( )
/,
(1,2) (0,4)
(0,5) (3,2)
U,
D,
L,pL R,1-pL
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
If A plays Up his expected payoff is
.)1(01 LLL p?p???p?
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
If A plays Up his expected payoff is
If A plays Down his expected payoff is
).1(3)1(30 LLL p??p???p?
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
.)1(01 LLL p?p???p?
Player B
混合策略博弈
西南民族大学
Player A
p pL L? ?3 1( )If then A would play only Up.
But there are no Nash equilibria in which A
plays only Up,
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
If
Down,But there are no Nash equilibria in
which A plays only Down,
p pL L? ?3 1( )then A would play only
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,A
must be indifferent between playing Up or
Down; i.e.p pL L? ?3 1( )
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,A
must be indifferent between playing Up or
Down; i.e.p p pL L L? ? ? ?3 1 3 4( ) /,
(1,2) (0,4)
(0,5) (3,2)
L,pL R,1-pL
U,
D,
5
3
5
2
Player B
混合策略博弈
西南民族大学
Player A
So for there to exist a Nash equilibrium,A
must be indifferent between playing Up or
Down; i.e.p p pL L L? ? ? ?3 1 3 4( ) /,
(1,2) (0,4)
(0,5) (3,2)
L,R,
U,
D,
5
3
5
2
4
3
4
1Player B
混合策略博弈
西南民族大学
Player B
Player A
So the game’s only Nash equilibrium has A
playing the mixed strategy (3/5,2/5) and has
B playing the mixed strategy (3/4,1/4).
(1,2) (0,4)
(0,5) (3,2)
U,
D,
5
3
5
2
L,R,4
3
4
1
混合策略博弈
西南民族大学
Player B
Player A
The payoffs will be (1,2) with probability3
5
3
4
9
20? ?
(1,2) (0,4)
(0,5) (3,2)
U,
D,
L,R,4
3
4
1
5
3
5
2 9/20
混合策略博弈
西南民族大学
Player B
Player A
The payoffs will be (0,4) with probability3
5
1
4
3
20? ?
(0,4)
(0,5) (3,2)
U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
混合策略博弈
西南民族大学
Player B
Player A
The payoffs will be (0,5) with probability2
5
3
4
6
20? ?
(0,4)
(0,5)
U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
6/20 (3,2)
混合策略博弈
西南民族大学
Player B
Player A
The payoffs will be (3,2) with probability2
5
1
4
2
20? ?
(0,4)U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
(0,5) (3,2)
6/20 2/20
混合策略博弈
西南民族大学
Player B
Player A
(0,4)U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
(0,5) (3,2)
6/20 2/20
混合策略博弈
西南民族大学
Player B
Player A
A’s expected Nash equilibrium payoff is
1 920 0 320 0 620 3 220 34? ? ? ? ? ? ? ?,
(0,4)U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
(0,5) (3,2)
6/20 2/20
混合策略博弈
西南民族大学
Player B
Player A
A’s expected Nash equilibrium payoff is
1 920 0 320 0 620 3 220 34? ? ? ? ? ? ? ?,
B’s expected Nash equilibrium payoff is
2 920 4 320 5 620 2 220 165? ? ? ? ? ? ? ?,
(0,4)U,
D,
L,R,4
3
4
1
5
3
5
2
(1,2)
9/20 3/20
(0,5) (3,2)
6/20 2/20
混合策略博弈
西南民族大学
如果一个博弈有有限个局中人,
每个局中人有有限的纯策略,那么
这个博弈至少有一个纳什均衡。
如果这个博弈没有纯策略纳什均
衡,至少有一个混合策略纳什均衡
。
混合策略博弈
西南民族大学
我们现在回到开始时讨论的航空公
司的价格联盟问题。
为方便讨论,我们假设只有两家航
空公司:南航和东航。这两家公司的
盟约是:上海始发航班散客票价最低
不得低于 8.5折。
这两家公司都有两个可能的策略:
遵守盟约(即诚实)或不遵守盟约(
即欺骗)。假设的报酬矩阵见下页。
重复博弈
西南民族大学
H-honest
C-Cheat
南航
东航
我们知道,尽管( H,H) 的报酬都较高,
这个博弈的唯一纳什均衡是( C,C)。
H C
H
C
(5,5)
(8,-2)
(-2,8)
(2,2)
重复博弈
西南民族大学
单一博弈( one-shot game), 两个
局中人之间只博弈一次。前面的例子
是一个典型的单一博弈的结果。在单
一博弈中,合作是很难建立的。
重复博弈( repeated game), 同样
的局中人、同样的博弈重复进行多次
。在重复博弈中,合作是可能的。
重复博弈
西南民族大学
重复博弈可以促进合作(或诚实)主要
是因为,现在的合作是为了以后的合作,
或者说,对现在的不合作或欺骗的惩罚是
以后的不合作。当合作的报酬大于不合作
的报酬时,合作是一个较佳的策略。
在重复博弈中,重复博弈的次数可以是
有限的数次,也可以是无数次。在这两种
情况下,结果是不同的 。
重复博弈
西南民族大学
如果重复博弈的次数是有限的数次,比
如说 5次,情况会怎么样呢?
我们先看最后一次博弈,因为博弈双方
都知道这是最后一次,结果跟单一博弈时
一样,即( C,C)。
第四次博弈时,双方知道以后不会有合
作,所以最佳策略也是( C,C)。
如此反推,在第一次时也不会有合作。
重复博弈
西南民族大学
只有在重复博弈次数无限的时候
,合作才有可能。
如果你的对手现在选择 C( 欺骗
),在以后的博弈你永远会选 C。
只要博弈双方都在意以后的报酬
,那么彼此都有积极性在当前博弈
中选 H。
重复博弈
西南民族大学
重复博弈的机制,即所谓的“针锋相对
”策略( tit-for-tat strategy),是:
在第一次博弈中,局中人一选 H;
在以后的每次博弈中,只要在前一次博
弈中局中人二也是选 H,局中人一继续选 H;
一旦在前一次博弈中局中人二选了 C,局
中人一在当前博弈中肯定选 C。
反之亦然。
重复博弈
西南民族大学
声誉( reputation) 的价值:如果你有诚
实的名誉,你现在的合作伙伴很可能也会
选择诚实,你就会享受合作的成果。推而
广之,你的新的合作伙伴也有较大的可能
性会选择诚实。
“It helps with your customers,
suppliers,and employees,Your
reputation is everything,and should
be protected at any cost.” David
Glass,CEO,Wal-Mart.
重复博弈