第八章 博弈论
前面章节对经济人最优决策的讨论,是在简单环境下进行的,没有考虑经济人之间决策相互影响的问题。本章讨论这个问题,建立复杂环境下的决策理论。开展这种研究的的理论叫做博弈论,也称为对策论(Game Theory)。最近十几年来,博弈论在经济学中得到了广泛应用,在揭示经济行为相互制约性质方面取得了重大进展。大部分经济行为都可视作博弈的特殊情况,比如把经济系统看成是一种博弈,把竞争均衡看成是该博弈的古诺-纳什均衡。博弈论的思想精髓与方法,已成为经济分析基础的必要组成部分。
第一节 博弈事例
博弈是一种日常现象,例如棋手下棋,双方都要根据对方的行动来决定自己的行动,双方的目的都是要战胜对方,互不相容,互相影响,互相制约。一般来讲,博弈现象的特征表现为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中,一方的行动取决于对方的行动,每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时,博弈的局势就暂时确定下来。博弈论就是研究这种不相容现象的一种理论,并把当事人叫做局中人(player)。
博弈论推广了标准的一人决策理论。在每个局中人的收益都依赖于其他局中人的选择的情况下,追求收益最大化的局中人应该如何采取行动?显然,为了确定出可行的策略,每个局中人都必须考虑其他局中人面临的问题。下面来举例说明。
例1.便士匹配(Matching Pennies)(二人零和博弈)
设博弈中有两个局中人甲和乙,每个局中人都有一块硬币,并且各自独立安排硬币是否正面朝上。局中人的收益情况是这样的:如果两个局中人同时出示硬币正面或反面,那么甲赢得1元,乙输掉1元;如果一个局中人出示硬币正面,另一个局中人出示硬币反面,那么甲输掉1元,乙赢得1元。
表1: 便士匹配博弈局势表
乙甲
正面
反面
正面
(正,正)
(正,反)
反面
(反,正)
(反,反)
对于这个博弈,每个局中人可选择的策略都有两种:正面朝上和反面朝上,即甲和乙的策略集合都是{正面,反面}。当甲和乙都作出选择时,博弈的局势就确定了。显然,该博弈的局势集合是{(正面,正面),(正面,反面),(反面,正面),(反面,反面)},即各种可能的局势的全体,也称为局势表,即表1。
表2: 甲和乙的收益表
乙
甲
正面
反面
正面
,
,
反面
,
,
每个局中人的收益都取决于所有局中人的决策,也就是说,局中人的收益是博弈局势的函数。本例中,甲的收益函数为:,,,;乙的收益函数为:,,,。局中人的收益函数也可用表格或矩阵加以表示,并称其为收益表或收益矩阵。表2中,甲的收益列在左边,乙的收益列在右边。
该博弈的特点在于每个局中人的收益都是另一个局中人的付出,即甲和乙的收益之和为零,收支发生在局内,不涉及任何局外人。这种博弈就是所谓的二人零和博弈。习惯上,人们喜欢把二人博弈的第一个局中人甲叫做“列”,第二个局中人乙叫做“行”,而且总是把列的收益写在前面(即左边),行的收益写在后面(即右边)。
例2.囚徒难题(Prisoner's Delimma)(二人变和博弈)
表3: 囚徒博弈局势表
乙
甲
合作
背叛
合作
(合作,合作)
(合作,背叛)
背叛
(背叛,合作)
(背叛,背叛)
有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。他们可以选择合作,拒绝供出任何犯罪事实;也可以选择背叛,供出对方的犯罪行径。这就是所谓的囚徒博弈,也叫做囚徒难题。博弈的局中人甲和乙都有两种可选择的策略:合作与背叛。
囚徒博弈的意义在于它可以解释寡头垄断厂商的行为,关键是赋予合作与背叛具体的经济含义。比如在双头垄断的情况下,合作可以解释为“保持索要一个高价”,背叛可解释为“降价以争夺对手的市场”。右表给出了囚徒博弈的局势表。
局中人可以事先讨论这局博弈,但实际决策必须独立地做出。如果甲采取合作策略,不供出乙的犯罪事实,那么乙就能得到3000元的收益。同样,如果乙采取合作策略,那么甲就能得到3000元的收益。可见,如果甲乙双方都采取合作策略,双方各得3000元收益。
但是,审讯者用1000元奖赏来鼓励局中人采取背叛策略。这样,只要局中人选择背叛,他就会得到1000元鼓励,而不管另一个局中人会采取什么策略。
需要注意的是,囚徒博弈中的货币支付来自第三方——局外人,这正是囚徒博弈同便士匹配博弈的不同之处。奥曼(Aumann)1987年对囚徒博弈给出了一个特别简单的描述:每个局中人都可以对仲裁人简单地宣告“给我1000元”或“给对方3000元”。
表4: 甲和乙的收益表
乙
甲
合作
背叛
合作
3000, 3000
0, 4000
背叛
4000, 0
1000, 1000
简单分析一下就会发现,如果一个局中人采取合作策略,而另一个局中人采取背叛策略,那么采取合作策略的局中人的收益为零,而采取背叛策略的局中人的收益为4000元(3000元收益再加上1000元的背叛鼓励)。如果双方都采取背叛策略,则双方的收益各为1000元。表4列出了甲乙双方的收益情况。从收益表可以看出,甲乙双方的收益之和不为零,而且收益和是变化的。因此,囚徒博弈是一种变和博弈。
直觉上看,甲和乙都应采取合作策略(互不供出对方的犯罪事实),各得3000元收益。但从收益表可以得出这样的结论:如果一个局中人认为另一个局中人将合作,从而他将得到3000元收益,那么他若采取背叛策略,就将总共能获得4000元的收益;如果他认为另一个局中人为了得到1000元鼓励而将背叛,那么他也就只好为了自己也取得1000元鼓励而采取背叛策略(否则,他将一无所获)。总之,在收益最大化动机的驱使下,局中人的最优选择是背叛。这样一来,甲乙双方都采取背叛策略,各得1000元收益;而不是都采取合作策略,各得3000元。这是一个典型的博弈悖论,问题的关键在于每个局中人都有背叛的鼓励,而不管其他局中人将做什么。
例3.古诺博弈(双头垄断:产量较量)
法国经济学家古诺(Cournot)于1838年以天然矿泉井为例,首次建立了简单的双头垄断博弈模型,其特点是,垄断厂商双方都天真地以为对方不会改变原有产量水平,双方都追求各自利润最大化。古诺假定:①有两个天然矿泉在一起,分别为厂商甲和乙占有;②两个矿泉都为自流井,生产成本为零,边际成本也为零;③甲和乙面对相同的需求曲线,采用相同的价格;④双方都以为对方的产量水平不会改变。在这些假设前提下,甲和乙各自独立决定自己的产量水平,以求利润最大化。
设是甲乙双方共同面临的反需求函数。当甲的矿泉水产量为,乙的产量为时,矿泉水的市场价格为,甲的利润, 乙的利润为。在这个博弈中,甲乙双方的策略都表现为选择产量水平,局中人的收益即为厂商的利润。当甲的产量为时,乙以为甲不会改变这一产量,而选择一个合适的产量水平以使自己的利润达到最大。同样,当乙的产量水平为时,甲以为乙不会改变这一产量,而选择一个合适的产量水平以使自己的利润达到最大。
为了说明这个博弈的结果,假设甲乙双方面临的反需求函数。用表示这局博弈中甲选择的最优产量,表示乙选择的最优产量水平,则甲乙各自的收益分别为和。由于实现了利润最大化,因此
解之得:当乙的产量水平为时,甲决定的产量水平为(这是甲对乙的反应函数);当甲的产量水平为时,乙决定的产量水平为(这是乙对甲的反应函数)。其中,表示矿泉水市场容量(即价格为零时的矿泉水需求量)。进一步求解可得:, 即博弈的结果是双方最终各占据矿泉市场的三分之一。反应函数说明,古诺博弈中每个局中人的决策(选定的产量水平)不但依赖于其他局中人的决策,而且与市场的容量有关。
例4.贝特兰博弈(双头垄断:价格较量)
古诺博弈模型描述了双头垄断厂商之间展开的产量较量。实际上厂商之间的产量较量并不如价格较量那么普遍,寡头之间应该有激烈的价格竞争。不论市场价格如何,只要某一厂商降低价格,而其他竞争对手保持原价格不变,那么降价厂商就能占有全部市场。这就是说,我们假定消费者只从最低价格厂商那里购买产品。为此,法国经济学家贝特兰(Bertrand)于1883年提出了以价格为选择策略的贝特兰博弈模型,反对古诺关于产量的博弈模型。
还以矿泉水为例,在贝特兰博弈模型中各厂商都预期对手不会改变价格,从而将自己的价格确定在利润最大化的水平之上。这就是说,贝特兰博弈的构建同古诺博弈相似,所不同的是贝特兰博弈中局中人的策略是选择价格,而古诺博弈局中人的策略是选择产量水平。
贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数,不过现在价格是自变量,产量为因变量(古诺模型正好相反)。设市场需求函数为, 为了分析上简单起见,进一步设(这里,,,即与古诺模型中的市场需求相同)。局中人的收益仍是他所获得的利润。
如果甲和乙不相互勾结串通,当乙采取了价格水平时,甲认为乙不会改变这一价格水平,从而为了占领市场而要采取低于乙的价格水平的价格,于是甲的利润为,乙的利润为零;同样,当甲采取了价格水平时,乙认为甲不会改变这一价格水平,从而为了占领市场而要采取低于甲的价格水平的价格,于是乙的利润为, 甲的利润为零。
如果甲和乙相互勾结串通起来,采取相同的价格策略,即,那么甲和乙就能索要一个垄断价格,并且每人可收取一半的垄断利润。
由此可见,甲和乙的利润函数分别为:
,
如果甲和乙勾结串通,合作起来,那么双方就能按照最大利润价格获得垄断价格,并且各得最大利润的一半。这里,利润最大化价格是按照
确定的。但是,占领市场的诱惑对每个局中人都存在,只要他稍微降价,他就能获得全部市场。假如甲先进入该矿泉市场,那么甲就按照利润最大化价格$P_1=Q_o/(2b)$获取最大利润。 继而乙进入这个市场,且乙认为甲不会改变他的价格$P_1$,于是乙为了夺取市场而采取低于甲的价格水平的一个价格(。由于乙夺走了市场,甲同样又会采取低于乙的价格水平的价格,以夺回市场。这样不断往复下去,直至最后甲乙双方都把价格水平定为零时才可达到均衡,此时双方的收益为零,市场各占一半(即甲的销售量和乙的销售量相等,且)。这就是甲乙双方不合作的结果,双方都变得更差。
以上分析表明:把贝特兰博弈与古诺博弈作比较,对同一市场来说,由于选择了不同的策略集合(一个以产量作为策略,另一个以定价作为策略),得出了不同的博弈结果,贝特兰博弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态(超额利润为零),而古诺博弈的结果不是这样;再把贝特兰博弈同囚徒难题博弈作比较,二者具有相似的结构,即局中人合作会取得最好的结果,但利益的诱惑促使他们采取不合作的行动,致使双方博弈的结局都变得更差。
贝特兰博弈也可用囚徒博以来解释:合作是指两个厂商的勾结,背叛是指两个厂商独立行动,没有勾结。合作,可以索要一个高的垄断价格;背叛,则导致市场价格为零,双方利润为零。可见,双方合作起来,对两个厂商都有利,似乎应该合作。但博弈的最终结果是双方都采取背叛策略,导致谁也得不到利润。
本节所举的这些事例说明,寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描述和研究。实际上,经济学中大部分经济现象都可以作为博弈的特殊情形进行研究,比如历史上解决竞争均衡的存在性这一经济学基本问题时,就把经济系统看成为一局博弈。
为了研究博弈,必须抓住博弈现象的基本要素,这些要素是:局中人、策略、收益。也就是说,博弈可以用局中人集合、策略集合和收益函数加以描述。局中人从策略集合中选择一种策略后所获得的效用或利益,就是局中人的收益(payoffs),也叫做得失。我们假定每一个局中人都知道他自己和别人的策略集合与收益函数,这就是说,每个局中人的策略集合与收益函数为所有局中人所共知。当然,每个局中人都知道其他局中人掌握着这些信息和知识。局中人的收益不但依赖于他自己的策略选择,而且依赖于其他局中人的策略选择。我们再假定每个局中人在给定的主观信念下会选择收益最大化的行动,并且当新的信息根据贝叶斯规则到来时,这些信息会得到修正(即根据贝叶斯全概率公式从先验概率计算后验概率)。
第二节 策略博弈
为了能够正确地应用博弈论研究经济问题,需要对博弈加以准确地描述和定义。要定义一个博弈,需要确定三件事情:一是局中人集合(set of players),一是局中人的策略集合(set of strategies),一是局中人的收益函数(payoff function)。这三件事情中,确定策略集合是至关重要的。局中人以策略决定胜负,目标是使他的收益最大化。这种以策略定胜负的博弈,称为策略博弈(game of strategy)。正象比较古诺博弈和贝特兰博弈时说明的问题一样,用博弈论研究经济问题时,对于同一经济现象,由于选择了不同的策略集合,得到的博弈结果截然不同。
用表示博弈的局中人集合,表示局中人的策略集合,表示的收益函数,则就表示了一个博弈。根据局中人的多少,博弈可分为二人博弈和多人博弈。根据博弈的策略集合是否有限,博弈还又可分为有限博弈和无限博弈。例如,便士匹配和囚徒难题都是有限博弈,而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和是否固定,把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈(即收益总和为零的博弈)和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类,通常称为矩阵博弈。本节以二人博弈为重点,介绍有关策略博弈的概念与理论。
一.策略表与收益矩阵
设二人博弈的局中人是甲和乙。甲有种可选策略,策略表为;乙有种可选策略,策略表为。当甲采取策略,乙采取策略时,称为博弈的局势,集合就是局势集合(局势表、局势矩阵),即
每个局中人选择自己的策略时,都要考虑对手的行动。这样每个局中人的收益不但与自己的选择有关,而且与对手的选择有关,收益函数是定义在局势集合上的函数,这里假定了局中人的收益是可以用实数来都来计量的。用表示局中人甲的收益函数,用表示局中人乙的收益函数。由于局势集合是有限集合,收益函数和都可用矩阵加以表示,这些矩阵就称为收益矩阵。记,,则甲和乙的收益矩阵分别为:
,
当(常数)时,该博弈就是常和博弈。否则,就是变和博弈。局中人的策略与收益也可用收益表加以表达:
表1: 博弈的收益表
乙的策略
甲的策略
……
,
,
……
,
,
,
……
,
……
,
,
……
,
一般情况下,二人博弈可表示成。但对于二人常和博弈,则可简单地表示成,其中为收益的常数和。而矩阵博弈则可更简单地表示成,或者直接用甲的收益矩阵来表示矩阵博弈。
二.最小最大原理
局中人的目标是选择使自己收益最大化的策略,我们来分析局中人如何决策。假定甲乙双方彼此了解对方的收益表。如果甲通过间谍获悉乙采取某种策略时,甲必然会采取相应的某种策略,以求自己的收益最大,即选择使下式成立:
但是,当甲不知道乙会采取什么策略时,如果甲是一个避险者,那么他必将作最坏的打算,以求取得较好的效果。首先,甲要从收益表中找出自己的每一种策略下至少可获得的收益(即所能获得的最小收益),即先求解,然后从这些最小收益策略中选择出收益最大的策略,即“从最小收益中选择最大收益”。从收益矩阵来看这个决策过程,即甲首先选出自己的收益矩阵的各行的最小值,然后从这些最小值中再选出最大值:
这就是求解策略博弈的最小最大原理,其合理性表现为:如果甲采取按照最小最大原理确定的策略,那么不论乙采取什么策略,甲都可至少得到这个最小最大收益。由此可见,最小最大原理是能够确保局中人收益的一种原理。今后,我们把局中人甲按照最小最大原理所确定的策略,叫做甲的稳妥策略。
对于局中人乙来说,他的决策行为和决策过程同甲是一样的,只不过乙要依赖于收益矩阵。乙决策的最小最大原理是:乙先选出收益矩阵的各列的最小值,然后从这些最小值中选出最大值:
局中人乙按照最小最大原理确定的策略,称为乙的稳妥策略。
读者可能会问:甲先找出他的收益矩阵各列的最大值,然后再从这些最大值中选出最小值,不也是一种很好的决策办法吗?其实,这种决策办法叫做最大最小法,照此办法做出的决策,在甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。原因在于最大最小法需要确定出乙的每种策略下甲的最大可能的收益。假如甲按照最大最小法选出了策略, 那么当乙采用策略时,甲可得到最大最小收益。但是,若乙采用的不是策略, 而是策略,那么甲如不重新选择他的收益矩阵第列的最大值的话,他的最大最小收益就不一定能够达到,这正是最大最小法同最小最大原理的区别。
实际中,在甲不知道乙会采取什么策略的情况下选定了自己的策略以后,乙的策略才出台,为甲也获悉了乙的这一行动时,甲很有可能来不及调整自己原定的策略,从而给甲带来一定的损失。因此,最大最小法在保证局中人收益方面不如最小最大原理那么保险。
当甲和乙的稳妥策略都已选定时,二者结合起来能否成为博弈的结果呢?答案是未必。请看下面二人零和博弈的事例。
例1. 高度不确定的博弈
考虑二人博弈,甲的策略集合,乙的策略集合,甲和乙的收益矩阵和通过博弈的收益表给出(见表2)。
表2: 甲和乙的收益表
乙
甲
4,
1,
2,
3,
对于甲来说,;对于乙来说,。这说明甲的稳妥策略是,乙的稳妥策略是。
但是,当甲采取时,乙采取的收益小于采取的收益,因而乙要改用策略。在乙改用后,甲采取策略的收益小于采取的收益,因而甲也要改用策略。而当甲改用后,乙采用的收益小于采用的收益,于是乙又要改回到;在乙改回到后,甲也要改回到收益最大的策略。这就让我们看到:当甲采取时,乙要采用;然后甲改用,乙随之改用;甲再改用,乙又改用,如此不断往复下去,博弈的结局是高度不确定的。
一般来讲,要想一个二人博弈具有确定的结局,必须存在这样的局势:
满足这个条件的的局势,叫做博弈的均衡或最优解或最优局势,其中的和分别叫做局中人甲和乙的最优策略或均衡策略。这个条件也就叫做博弈的均衡条件。
对于二人常和博弈来说,是博弈的最优解当且仅当
数学中,满足这个条件的点叫做函数的鞍点。因此,是博弈的最优解当且仅当是收益函数的鞍点。下面的定理给出了鞍点的判别条件。
鞍点定理.是收益函数的鞍点的充要条件是:
证明:必要性. 设是的鞍点,即。
从可知,对一切成立,这就蕴含着,即。
注意,。这就证明了。
充分性.设满足。从可知;从可知。所以,,即是函数的鞍点。◆
既然二人常和博弈的最优解恰好就是收益函数的鞍点,鞍点定理告诉我们,当收益函数的鞍点存在时,利用最小最大原理确定的博弈局势就是二人常和博弈的最优解。
但是,当收益矩阵不存在鞍点时,常和博弈就没有最优解,博弈的结局就是高度不确定的。鉴于此,我们将有鞍点的常和博弈称为严格确定的博弈。
三.反应函数
博弈的局中人总是要考虑对手的行动,然后确定自己的对策。当乙采取了某种策略,而且被甲所觉察时,甲必然有所反应,要确定出相应的对策以使自己的收益在乙选择的情况下达到最大,即要使。甲对乙的行动的这种反应,确定了一个从乙的策略集合到甲的策略集合的映射,即对任何,甲的反应策略是按照来确定的。这个映射就叫做甲对乙的反应函数。
同样的道理,可以确定出乙对甲的反应函数,即对任何,是按照来确定的。
利用反应函数,我们也可以解释博弈的结局。就象古诺博弈一样,假如甲先采取某种策略,乙通过某种途径获悉了甲的这一行动,并认为甲不会改变他的策略,于是作出反应,决定采取策略,以使自己的收益最大化。当乙采取策略时,甲掌握了这一信息,并认为乙不会改变他的策略,于是作出反应,改变原来的策略,决定采用,以求收益最大化。这时,乙再次对甲的行为作出反应,采取新策略。甲也再次对乙的行动作出反应,采取新策略。这样的反应不断下去,直到最后达到且时博弈实现了均衡,此时的局势就是博弈的最优解(均衡、最优局势)。
综上所述,博弈的结局是实现均衡,并且均衡由甲乙双方的反应函数确定,即由方程组决定。事实上,是该方程组的解当且仅当,而这正是博弈实现均衡的含义。注意,以上关于反应函数的讨论,没有要求策略集合的有限性,即集合和可以是任何集合。
下面考虑二人无限博弈的一种特殊情况:策略集合和都是实数区间。比如,本章第一节例3中古诺博弈的局中人策略集合就是区间(半直线),例4中贝特兰博弈的局中人策略集合也是半直线。假设局中人甲和乙的收益函数和可微,则甲对乙的反应函数由方程(一阶条件)决定,乙对甲的反应函数由方程(一阶条件)决定,从而博弈的最优解就是如下方程组的解:
例2.二人博弈的反应函数及最优解
设二人博弈中,甲和乙的策略集合和为,收益函数和分别如下:
求偏导数得方程组。由此可知局中人甲和乙的反应函数分别为,博弈的最优解为。
四.策略选择的经济模拟
第一节中曾经指出,描述一个博弈时策略集合的选择至关重要。比较古诺博弈和贝特兰博弈,虽然二者的目的都是要模拟同一经济现象——双头垄断,但二者的结构却很不同。古诺博弈中厂商的策略是选择产量,厂商的收益是策略变量的连续函数;而贝特兰博弈中厂商的策略是选择价格,厂商的收益是策略变量的非连续函数。这导致了相当不同的均衡,究竟哪一种是正确的呢?
如果抽象地看待这个问题,那么“哪一种模型正确”这样的提问并无什么意义。要回答这个问题,就必须看模型试图模拟什么。不要问哪一种模型是正确的,而去问策略选择中什么样的考虑是切入主题的,这样的提问可能会更加有益一些。比如,如果我们观察OPEC公司的公告,就会发现OPEC企图为每一个员工决定产量配额,并且允许按照世界石油市场价格定价,这样按照产量水平而不是按价格水平来模拟博弈策略,就可能更加合理。
在策略选择的经济模拟中还有另一方面的考虑,乃就是一旦对手的行为被观察到,那么对手的策略应该是被承诺的或者是难以改变的。然而到目前为止,所描述的博弈是“一次性”(one-shot)博弈,其特点是一旦知道对手的行动,策略变量可以很快地进行调整。例如,假设我为我的产品选择一个价格,然后发现我的对手制定了一个略低一些的价格,在这种情况下我可以很快地调整我的价格。因此,尽管“一次性”博弈所描述的现象应该是发生在实际生活中的现实,但在“一次性”博弈中模拟这种能够很快调整的策略反应并不具有多大的意义。似乎应该使用多阶段博弈,这样才能捕获到策略选择行为的所有可能的内容。
另一方面,如果我们把古诺博弈中的产量水平解释成为厂商的生产能力,那么一定产量的产品生产就可能是不可撤消或不可改变的资本投资。这种情况下,厂商一旦发现对手的产量水平,而要改变厂商自己的产量水平,则可能是难以办到或非常昂贵的。生产能力或产量水平似乎是厂商策略的天然选择,即使一次性博弈中也是这样。
同大部分经济模拟一样,在策略选择的经济模拟中,如果既要让博弈简单明了以便分析,又要能够说明实际策略的迭接要素,那么如何表示博弈的策略选择,就是一项艺术。
第三节 重复博弈
到目前为止,所谈论的博弈是一次性的。其实,任何博弈都可以一次一次地重复进行,且每一次重复都不是简单地重复前一次的着法,而会考虑得比前一次更全面些,技法也会更高些。就好像棋手下棋一样,一局结束了再开一局,前一局在某些着法上吃了亏,这一局中就会吸取教训而加以注意,正所谓“吃一暂,长一智”。反反复复地开局,给棋手不断积累经验,让棋手的技艺越来越高。
通过博弈的重复进行,局中人的经验越来越丰富,这种经验源于博弈历史。实际上,重复博弈中的每一点处,局中人决定自己的选择时会考虑到达该点之前的全部博弈历史,比如象棋棋手在上一局中因出车慢而吃了亏,那么这一局中就会吸取前一局的教训而赶快把车开出来。这样一来,重复博弈中局中人的策略空间随着博弈被重复的次数的增加而变得越来越大,也就是说,博弈历史越长,局中人的策略空间越大,可以选择的着法越多。由于“我的对手会基于我的选择历史而修正他的行为,我必须在做出自己的选择时考虑到这种影响”,所以,重复博弈的结果不绝不是一次性博弈的简单重复。
例1. 囚徒博弈的重复
我们以囚徒博弈为例,来分析重复博弈问题。囚徒博弈中,企图获得“(合作,合作)”解是两个局中人的长期利益所在。对于每个局中人来说,可行的做法是试着给另一个局中人发出“信号”以表明他的“善意”,并且在博弈一开始移动就进行合作。当然,背叛是另一个局中人的短期利益所在。如果他不合作而采取背叛策略,那么对方就可能失去耐心而从此以后永远只实行背叛。这样一来,背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推理可以得到的事实是,一个局中人目前的做法将在未来将得到回应——其他局中人的未来选择可能依赖于这个局中人当前的选择。
现在来分析一下“(合作,合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种情况进行讨论,一种情况是有限次重复博弈,另一种情况是无限次重复博弈。
先讨论有限次重复博弈,为此假定每个局中人都知道博弈将重复一个固定的次数(比如重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行一次性博弈。由于这是最后一次移动,将来不会再有,因此均衡的标准逻辑推理便得以应用,其结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动,这里似乎每个局中人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。但是,我们已经看到,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有采取背叛。同理不断向后归纳(backwards induction),结果最后一次移动之前的所有移动中,合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。因此,在重复某一固定次数的囚徒难题重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合作)”。
再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时,情况就大不相同了。此时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益在望。在这种无限次重复的囚徒博弈中,每个人的策略都是一个函数序列,它表明每个局中人在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。重复博弈中,局中人的收益是各阶段收益的贴现值之总和——贴现和(向时刻0贴现)。具体地说,设局中人在时刻的收益(即第局重复中的收益)为,他在重复博弈中的收益就是贴现和,其中为贴现率。只要贴现率不很高,囚徒博弈每一局重复的均衡局势便都是“(合作,合作)”,每个人在各个阶段都会看到合作的利益。为了说明这个事实,我们采用第一节例2提供的数据。
假设两个局中人一直合作,移动到了时刻。如果本次移动中一个人决定背叛,那么另一个人会因本次移动中采取合作而未得收益,从而从下次以后永远采取背叛策略,给对方以惩罚。第一个背叛者从本次开始,以后只能继续背叛(因为合作的收益为零),结果他虽然在本次移动中立即得到了4000元的收益,但也以以后无限次的1000元收益这个低收益流来毁灭自己,他从背叛中得到的收益贴现和为元。另一方面,如果他持续合作下去,永不背叛,那么对方也不会背叛,于是他从合作中得到的收益贴现和为元。比较和可知,只要贴现率,就有。这就说明,只要贴现率不很高,当一方背叛时,另一方也采取背叛给其以惩罚,就能使背叛者偿其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方就要执行惩罚策略来使背叛者饱偿苦果,因而没有一方能够从背叛中会有收获。所以,在贴现率不很高的情况下,囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略。
以上论述实际上是很有力的,有一个称为弗尔克(Folk)的著名定理支持了这一论述。该定理断言:在重复的囚徒博弈中,任何收益如果高于局中人双方一致背叛所能得到的收益,那么都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略,实际上这个策略可明确叙述成:“在当前移动中合作,除非其他局中人在最后移动中背叛”。采取这个策略的理由是,如果一个局中人背叛,那么他将在收益上得到永久性惩罚。另外,上面论述中还涉及到了贴现率,并要求贴现率不很高。实际上,当贴现率很高时,当前收益就是特别重要的,因为将来的货币贬值太大了,现在的收益要抵得上将来收益的好几倍,因而当事人只好顾及当前收益,力求当前收益越多越好,而把未来长远利益放在次要位置上。
下面再看一个双头垄断的重复博弈事例。
例2.维持卡特尔
考虑一个简单的重复双头垄断,如果两个厂商都执行古诺博弈均衡策略,则得到利润;如果以共同利润最大化决定产量水平,即执行卡特尔行动,则得到利润。我们知道,一次性博弈中共同利润最大化的产量不是博弈均衡,每个厂商都有激励去倾销额外数量的产品,如果他认为其他厂商将保持产量不变的话。但是在重复博弈中,只要贴现率不太高,合作起来以使共同利润最大化之策略,将是重复博弈的最优解。
可以证明,如果这种简单的双头垄断博弈是一次性的,那么每个厂商以古诺产量生产将是博弈的最优解。但是,如果这个博弈是不断重复的,那么每个厂商都采取按照卡特尔产量生产的策略,即都选择合作,将是双头垄断重复博弈的最优解。对不合作的适当惩罚,是采取生产古诺产量水平这一策略。可见,在不断重复的双头垄断博弈中,由于一次性博弈均衡这种惩罚策略的存在,局中人都将以长远利益为重,来维持卡特尔。
第四节 混合策略
并非所有博弈都有严格确定的结局。进一步,实际中博弈局中人常常希望自己的行动隐秘不被暴露,不被对手觉察。对于这两个问题,目前意义上的策略博弈是解决不了的。在博弈非严格确定或者局中人希望保守秘密的情况下,局中人的最好做法是采取混合策略,即以一定的概率采取某种策略。这样做,甚至连局中人自己也不知道每一次行动中究竟采取什么策略,竞争对手就更不得而知了。而且对于非严格确定的博弈来说,采用混合策略就可求得最优解。当一种混合策略以概率1选择某种策略时,这种策略就是前三节所谈论的“纯”策略,可见混合策略扩展了策略概念。
一.混合策略的概念
我们以两人博弈为例,来对混合策略的概念以及采取混合策略时局中人的行动目标进行解释。至于更一般的多人博弈,将在下一节中讨论。
设为有限二人策略博弈,其中为局中人甲的策略集合,为乙的策略集合,和分别为甲和乙的收益函数。
局中人为了保持自己决策的秘密性,不再象以前那样选择纯策略,而决定采用随机办法来选择策略。也就是说,局中人对纯策略的选择由某种随机装置来决定,对每个纯策略来说,采用它只有可能性的大小,也就是用多大的概率来选择各个纯策略。这样,对方就不可能事先知道究竟选择哪个纯策略,甚至连局中人自己也不可能事先知道,而纯策略是在最后时刻借助随机装置选择出来的。通过借助随机装置,局中人原来对纯策略的选择变成为现在对各个纯策略的概率大小的选择。
如果还嫌借助随机装置给出的选择各个纯策略的概率大小具有一定的客观性,怕被对方估计出来,局中人还可进一步采取主观概率分布,以使对纯策略的选择带有真正的不确定性(参见第六章关于主观概率的介绍)。
这种以某种概率选择的策略就是混合策略,更准确地说,选择混合策略就是选择一个概率分布,然后按照这个分布给出的概率来选择各个纯策略。假如甲选择策略的概率为 ,,则向量代表着甲选择各种纯策略的概率分布,实际上就表示了甲的一种混合策略。这就是说,混合策略是用概率分布来表示的,混合策略的变化完全反映为概率分布的变化。今后,我们把概率分布就称为局中人甲的混合策略。
原来的纯策略可看成是这样的一种混合策略:以概率1选择策略,以概率0选择其他策略。如此一来,甲的策略集合由原来的纯策略集合扩张成为混合策略集合。同样,局中人乙的选择集合也由原来的纯策略集合扩张成为混合策略集合。当甲采取混合策略,乙采取混合策略时,就称为博弈的混合局势。
在采取混合策略的情况下,局中人的目标是要使预期收益最大化。当甲采取混合策略,乙采取混合策略时,甲和乙的预期收益分别为和:
这里,和都写成行向量形式,“”为转置运算。甲的收益函数由原来的扩充成为,乙的收益函数由原来的扩充成为。
在策略集合和收益函数都得到扩充以后,原来的纯策略博弈就扩充成为混合策略博弈,而且可看成是一般的二人博弈,不过这个博弈的收益函数具有双线性性,即对于任何,,及任何实数,都成立:
的混合局势就是的局势。博弈叫做纯策略博弈的混合扩充。关于混合扩充,下述两个事实是明显的:
(1) 博弈是常和博弈当且仅当混合扩充是常和博弈。
(2) 如果是常和博弈,则混合扩充保持了原来博弈的收益和。
混合扩充的最优解(均衡),叫做原博弈的最优混合解(混合均衡)。也即是的最优混合解,是指且。当是的最优混合解时,和分别叫做甲和乙的最优混合策略。可以证明:
(3) 纯策略博弈的最优解必然是混合扩充的最优解。
(4) 当是常和博弈时,是的最优混合解当且仅当。
从(4)可知,是常和博弈的最优混合解当切仅当是预期收益函数的鞍点。应用第二节的鞍点定理,我们得到常和博弈的最优混合解的又一判别条件:
(5) 设是二人常和博弈,则是的最优混合解的充分必要条件是 。
二.混合策略的意义
有时,给予混合策略一个有意义的解释是困难的。第一节例1所述的便士匹配博弈,由于收益矩阵没有鞍点,因而没有纯策略意义下的最优解。但由于硬币出现正面或反面,总有一个概率分布情况,因此采取混合策略来把便士匹配博弈加以扩充,然后寻找混合策略意义下的最优解,这显然是我们大家都能够感觉得到的应该采取的做法。然而对于象双头垄断这样的一些其他经济利益博弈来说,采取混合策略似乎是不现实的。
除了混合策略在一定范围内缺乏现实意义外,还有一些逻辑上的原因导致对混合策略难以解释。我们用一个例子来说明这一点。
例1.性别博弈(Battle of the Sexes)
性别博弈收益表
卡夫
茹达
话剧
足球
话剧
2,1
0,0
足球
0,0
1,2
这里介绍的博弈背后隐藏的故事是一场“性别之战”。茹达(Rhonda,女)和卡夫(Calvin,男)本周末一起欢度良宵,但他们二人的娱乐爱好不同。茹达喜欢看话剧,而卡夫喜欢看足球比赛。如果他们同时选择看话剧,则茹达可得2个单位的效用,卡夫可得1个单位的效用;如果同时选择看足球比赛,则他们得到的效用正好与此相反;如果他们选择不同的娱乐,则得不到任何效用。右表给出了茹达和卡夫的收益情况。我们来看一看茹达和卡夫之间这场“性别之战”博弈的结局究竟如何。
首先,让我们寻找该博弈的所有纯策略意义下的最优解。通过对各种策略进行逐一相互比较,不难看出“(话剧,话剧)”和“(足球,足球)”都是纯策略最优解,即茹达和卡夫选择相同的娱乐,才是最好的做法。
然后,我们来寻找混合策略意义下的最优解。茹达的收益矩阵和卡夫的收益矩阵为:
,
茹达的预期收益为,卡夫的预期收益为。因此,最优混合策略问题可归结为如下的约束极值问题:
应用Kuhn-Tucker条件(参见第七章第八节),上述极值问题的解为,,,。这就是说,茹达以概率选择看话剧,以概率选择看足球比赛;卡夫以概率选择看话剧、以概率选择看足球比赛,是性别博弈的最优混合局势。这个最优解有这样几个特点:第一,茹达和卡夫采取最优混合策略的预期收益都等于2/3;第二,如果茹达采取最优混合策略,那么不论卡夫采取什么纯策略,卡夫的预期收益也都是2/3;第三,如果卡夫采取最优混合策略,那么不论茹达采取什么纯策略,她的预期收益也都是2/3。这样一来,还有什么理由要求茹达和卡夫双方都采取最优混合策略呢?看来,要想人们采取混合策略,必须有一些更加令人兴奋的理由。
本例说明,从逻辑上讲,采用混合策略没有多少道理。尽管如此,在某些情况下这种逻辑上的毛病不会带来严重问题。例如,假定有一大群人在随机碰面并玩便士匹配游戏,甲是其中一员。设最初每个人都按概率分布(1/2,1/2)执行唯一的最优混合策略,到最后有些人便厌倦于执行此混合策略,而决定总是玩正面游戏或总是玩反面游戏。如果决定总出正面的人数等于决定总出反面的人数,那么各个局中人的选择问题不会有明显变化:每个人仍然理性地以为他的对手以50%的可能性出正面或反面。也就是说,虽然每个人都决定采取纯策略而总是出正面或反面,但当甲随机碰到一个局中人时,该人是出正面还是反面,甲不得而知,只能作出这样的判断:该人出正面的可能性为50%。这等同于该人采取混合策略。
对混合策略的另一种解释是:考虑某人在一次性博弈中出正面还是反面的选择,这个选择被看作是依赖于一些为对手所不能确定的特殊因素。比如,该人心想“正面”时就出正面,心想“反面”时就出反面。这种“心想”因素是很难为对手所把握的,一个人可以自我觉察到自己的心情,但其他人(对手) 却难以觉察这个人的心情。因此,每个局中人都会认为其他人对策略的选择是随机的。这样,采取混合策略就是一件有意义的事情。
第五节 矩阵博弈的古诺均衡
前面介绍的博弈最优解(均衡)概念,假定了局中人各自独立行动,没有合作。这种非合作二人博弈均衡概念,最早是由古诺提出来的,称为古诺均衡。无合作意味着局中人之间存在着利害冲突,互相对抗,互为对手。矩阵博弈(即二人零和博弈)是对这种或对抗状态的简明刻画,本节就下面就矩阵博弈均衡的存在性与算法问题及其均衡的性质进行讨论。
一.均衡的存在性
收益矩阵的鞍点未必存在,这使得矩阵博弈的均衡未必存在。但当采用混合策略时,情况就不同了:矩阵博弈的最优混合解总是存在的。下面用von Neumann(1937)的构造性方法来证明这一事实,构造性方法本身蕴含着古诺均衡的一种计算方法。
矩阵博弈均衡的存在性.任何矩阵博弈都有混合均衡。具体来说,设 为矩阵博弈,,,为的混合扩充,则必存在满足。
本定理的证明较长,会令读者感到枯燥。但证明过程给出了古诺均衡的计算方法,学习掌握这一计算方法是重要的,读者有必要静下心来琢磨一下。
首先注意,令,,则是的均衡当且仅当。本定理的证明将基于这一事实。另外,可以看出和具有下面三条性质:
对任何,都有;
对任何,都有;
对任何,都有。
进一步,假定收益矩阵的各行已经过调整,使得。这个假定并不是说增加了额外的条件,而是说在安排策略集中诸策略的编号时,可以让编号满足这个要求。以下的证明分三步走。第一步:定义基和最优基;第二步:构造最优基;第三步:从最优基得出混合扩充的均衡。
第一步:定义基和最优基
首先定义收益矩阵的增广矩阵如下:
的首行、首列叫做第0行、第0列,即首行行标为0,首列列标为0。用表示的第列,并令。从增广矩阵的列中选出列,构成一个阶方阵:。如果满足下面三个条件:
(b1) 是的首列,即;
(b2) 是非奇异的矩阵,即行列式;
(b3) 的逆矩阵中除首行外,其余各行的第一个非零元素皆为正数。
则称是一个基(base)。
如此定义的基必然存在。例如,矩阵就是一个基。事实上,符合条件(b1)和(b2)是明显的。对于条件(b3),注意的逆矩阵如下:
而,故符合条件(b3)。这就证明了是基。
现在对于任何一个基来说,用表示的第行。则从(其中为阶单位阵)知,这里当时,而当时。这说明,可见在个内积 中,至少有个为零。如果其余个内积均非正,那么就称是一个最优基(optimal base)。换句话说,基是最优基,是指,即的首行向量与的后个列向量的内积全非正。
第二步:用迭代法构造最优基
任意指定一个基(比如上面的基),从出发来构造最优基。用表示的第行,表示的第列,并检查是否为最优基,即检查不等式是否对一切都成立。如果是最优基,则目的已达到。如果不是最优基,则,此时需做下面的工作:
(1) 找出一个使。若的诸列中符合这个条件的列不止一个,那么就取列标最小者。
(2) 从方程解出列向量。这样得到的列向量必然满足且中必有正数。
事实上,。假如中没有正数,那么给出,从而增广矩阵的首列是的个列的正线性组合;然而根据的定义,不能表示成的个列的正线性组合,出现矛盾。矛盾的结论说明中必有正数。
(3) 找出符合条件的列,这里的是指在向量之间的字典序下求最小元,字典序是从向量的第一个分量开始比较的。如此找到的列必然是唯一的,即满足该条件的是唯一的。的唯一性保证了只要且,那么的第一个非零分量必为正数。
事实上,假如符合条件的不唯一,比如说和都满足该条件且,那么根据字典序的定义可知必有,从而的行向量组线性相关,这是不可能的。
(4) 用替换的第列,并保持的其他列不变,得到一个阶方阵。这个矩阵必然也是基。
我们来证明是基,即证明满足基的三个条件(b1)、(b2)和(b3)。
首先,根据的定义,。这说明的首列未被替换,即和具有相同的首列。所以,满足条件(b1)。
其次,既然且,从行列式的性质便可知。所以,也满足条件(b2),即是可逆矩阵。
最后检查条件(b3),即检查的逆矩阵各行(首行除外)的第一个非零元素是否为正数。为此,令,其中 。
首先来验证,这里为阶单位矩阵。注意,告诉我们,对一切成立。下面的验证过程中,这一事实将被多次应用。再注意,和仅仅在第列上有区别:;而当时,。
考察的第行、第列的元素:
当时,;
当时,;
当时,;
当时,;
当时, 。
总之,当时,;当时,。这就证明了,即是的逆矩阵:。
现在来从的第1行到第行,考察各行第一个非零元素是否为正数。首先看的第行:由于,且的第一个非零元素为正数,因此的第一个非零元素也为正数。再看第行:。当时,的第一个非零元素确实为正数;当时,(3)已经说明了的第一个非零元素为正数。总之,除了的首行外,其余各行的第一个非零元素都为正数。到此,条件(b3)得到验证。
(5) 如果不是最优基,那么对进行类似的修正,即对重复以上步骤(1)至(4),得到一个基;如果还不是最优基,就对重复以上步骤,得到又一个基;这样不断做下去,必然到某一步,比如第步时,得到的基就是最优基。
为什么不断重复修正下去就能得到最优基呢?为了说明这个问题,我们来看一下从基到基有什么改进。注意,被吸收进来的列满足条件:且。被排除出去的列满足条件:且。是因为是矩阵的第0行、第列的元素;是因为 。
如果不是最优基,那么对进行类似于那样的修正,得到另一个基。被排除出去,就不会把它重新吸收进来,因为被新吸收进来的列满足,而不满足这个条件,事实上。
如果还不是最优基,那么再次重复以上过程,得到又一个基。可以证明,不会把以前从基中排除出去的列重新吸收进来。这样不断进行下去,各次得到的基是互不相同的,而且每次更换基中的某列时,都不会把以前各次中被排除出基的列重新吸收进来,可见迭代至多进行次。最后一次构造出来的基必然是最优基。
第三步:从最优基得出混合扩充的均衡。
设为一最优基,不妨假定。用表示的首行,表示的首列。令 ,并定义如下:对任何,当时,;而当时,。我们断定:是混合扩充的均衡。
其实这一断言基于这样两个事实:(I)且;(II)且。实际上,和都是的首行、首列元素,因而。这样,事实(I)和(II)就说明了是的均衡。可见,我们只需证明事实(I)和事实(II)。
事实(I)的证明:
从可知。是最优基又说明,尤其是对于,有。这就证明了。
说明不会全为零。结合,我们便知不会全为零。
当时,。这说明。再注意,中至少有个为零,但现在已知后面个不会全为零,因而前面个中至少有一个为零,即必有某个满足:且。所以,。
事实(II)的证明:
首先,是的第行的首元素,而第0行才是的首行。根据基的性质(b3)可知,对一切成立,这就保证了。
再注意,说明了的首行向量与的首列向量的内积为1, 而根据增广矩阵首行的特点,这个内积等于。因此,从而。
的第行与的第0列的内积为零,这个内积等于
因此。
再注意,不会全是增广矩阵的后个列向量(因为假如这样的话,就不可逆了)。这说明的后列中必有一列不在中出现,比方说不在中出现,即且。现在考虑的第行与的内积,这个内积当然要等于零,同时按照定义又要等于:
因而。结合,我们得到。
到此,矩阵博弈古诺均衡的存在性得到证明。
矩阵博弈均衡的简化.设为矩阵博弈,,,为的混合扩充,,为一实数。则下面两个条件等价:
(1) 是的均衡且;
(2) 对一切和成立。
证明:(1)(2)是显然的。下面来证明(2)(1)。为此,假定(2)成立。
注意,且。因此对任何及,都有,。对和也不例外:,从而。这说明是的均衡。(1)得证。
二.最优解的性质
矩阵博弈混合均衡的存在性,保证了等式成立。今后,我们把数值叫做矩阵博弈的博弈值(value of the game),简称的值。显然,矩阵博弈的值是局中人甲在博弈达到均衡时的预期收益。即,若是的最优混合解,那么。
为了研究博弈值的性质,也为了计算博弈之解,需要对构成最优解的混合策略的性质进行研究。首先,如果我们能够通过某种方法知道矩阵博弈的值,那么通过下面的性质1就容易求得局中人的最优混合策略。
性质1. 设是矩阵博弈的混合扩充,,为一实数,并且已知。
(1) 是局中人甲的最优混合策略当且仅当对一切成立;
(2) 是局中人乙的最优混合策略当且仅当对一切成立。
进一步,由于且,从而有更简明的特征:
(3) 是甲的最优混合策略当且仅当对一切成立;
(4) 是乙的最优混合策略当且仅当对一切成立。
证明:我们来证明(1),其余留给读者来完成。
必要性.设是局中人甲的最优混合策略。由定义可知,存在使得为的最优解,从而对一切成立。
充分性.设对一切成立。既然一定有最优解且,存在使得对一切和成立 。这说明,对一切和成立,当然对和也成立,即,从而。由此可知,对任何和,都有,故也是的最优解。这就证明了是局中人甲的最优混合策略。证完。
受性质1证明过程的启发,我们可以得到下面的性质2.此性质告诉我们如何从各个局中人的最优策略来求出博弈的最优混合局势。
性质2.设是矩阵博弈的混合扩充,是局中人甲的任一最优混合策略,是乙的任一最优混合策略,则是的最优解。
证明:令。是甲的最优混合策略,即存在使得为的最优解。同样,是乙的最优混合策略,故存在使得也为的最优解。这样一来,对一切和,都有
(8.5.1)
(8.5.2)
用替代(8.5.2)式中的任意,用替代(8.5.1)式中的任意,则可得到
因此,。
(8.5.1)式说明对一切成立。(8.5.2)式说明对一切成立。从而对于任何,都有,这说明是$的最优解。性质2得证。
当用初等代数方法求解最优混合策略时,下面的性质3相当有用。
性质3.设是矩阵博弈的混合扩充,其中,。再设是局中人甲的任一最优混合策略,是乙的任一最优混合策略,为一实数,并且已知。对于任意的及任意的,
(1) 若,则;
(2) 若,则;
(3) 若,则;
(4) 若,则。
证明:我们用反证法来证明(1),其余由读者自己证明。首先根据性质2可知,是的最优解,因而。现在,设。
假如,则。对于来说,从性质1(4)知,,故。这样就得到,出现矛盾。矛盾的结论说明不可能,故只有。证明完毕。
到目前为止,我们只知道矩阵博弈在混合策略意义下必有解。但其解是唯一的吗?如不唯一,那么最优解集合又是什么样子呢?我们能有办法把最优解集合找出来吗?下面我们来回答这些问题。
设是矩阵博弈的混合扩充,其中为甲的策略集,为乙的策略集。用表示甲的最优混合策略的全体,表示乙的最优混合策略的全体,表示的最优混合解的全体,即为的混合均衡集合:
性质2告诉我们,。我们来看一看均衡集合和最优混合策略集合的结构形状。
性质4.矩阵博弈的混合均衡集合是空间的非空有界闭凸子集。进而,局中人甲的最优混合策略集合是空间的非空有界闭凸子集,局中人乙的最优混合策略集合是空间的非空有界闭凸子集。
证明:均衡的存在性保证了均衡集合是非空的,的有界性保证了的有界性。注意,预期收益函数是连续的,这就保证了是闭集(请读者自己证明)。下面来证明是凸集。为此,任意给定混合最优解和实数,并令
我们来证明。
性质2告诉我们,,即和也都是的最优混合解。从可知,对于任何的,都有
(8,5.3)
(8.5.4)
注意,是凸集且预期收益函数具有双线性性。因此,用乘以(8.5.3),用乘以(8.5.4),然后把两式相加即可得到:对任何,都有
这就是说,也是的最优解。同理可证,也是的最优解。
既然和都是的最优解,因此对任何,都有
(8,5.5)
(8.5.6)
用乘以(8.5.5),乘以(8.5.6),然后把两式相加,便知对一切成立。所以,。混合最优解集合的凸性得证。
最后,从的非空有界闭凸性及出发,容易看出和也都是非空有界闭凸集。证明完毕。
根据性质4及凸分析理论,我们便可以把最优解集合找出来。凸分析理论说,有限维欧氏空间中的任何非空有界闭凸集的端点集都是非空的,并且是的凸包。所谓的端点,是指不为中某两(不同)点的连线之中点的点。根据这一事实,我们只要找出最优混合策略集合和的端点集和,就能通过对端点进行凸线性组合而求得和,从而求得的均衡集合。
博弈理论家们研究了矩阵博弈的各种求解方法,其中典型的有:初等代数求解法、迭代法(即均衡存在性的构造性证明所给出的方法)、线性规划求解法、全解法(即求局中人的全部最优策略的端点法)。详细介绍这些求解法,已超出本书的讨论范围,感兴趣的读者可参考有关博弈论或运筹学方面的书籍,这里只简单介绍初等代数求解法的基本思路。初等代数求解法的理论依据是性质1和性质3,具体方法是:在给定的博弈值下,求解下面两组不等式:
(1), (2)
得到博弈的最优解。我们举例说明这种求解法。
例.便士匹配博弈的均衡
便士匹配博弈是矩阵博弈,其收益矩阵为,且没有纯策略最优解。根据这个收益矩阵,列出两组不等式:和。求解得到:,,,。再来确定的值。根据博弈值的定义,我们有:
因此,,,,。可见在便士匹配博弈中,局中人甲的最优策略是以0.5的概率决定正面朝上,以0.5的概率决定反面朝上;同样,局中人乙的最优策略也是以均等的概率决定正面朝上和反面朝上;博弈值为零。
第六节 均衡的精化
虽然博弈均衡的存在性不成问题,但唯一性通常却是很难发生的。一个博弈可以有多个均衡,并且根据矩阵博弈的性质4可知,当博弈均衡不唯一时,均衡集合的凸性说明了有无限多个均衡。这就是所谓的均衡多重性问题。为了使均衡点的数目减少下来,使多重性程度下降,需要有进一步的准则用来对均衡进行区分,这种对均衡的详细区分,称为均衡的精化(refinements)。通过均衡精化,便可以在所有均衡之中挑选出最好的来。本节就一般的二人博弈情形,讨论均衡的精化问题。
一.占优策略
均衡的精化是通过比较两个不同的均衡哪一个占优,来对均衡进行筛选的。那么,“占优”意指什么?下面对占优的概念作出解释,也即对均衡的精化准则,就一般的(有限或无限)二人博弈情形作出规定。
定义.设为任意给定的二人博弈,,。
称比占优,记作,是指对一切成立。当且存在使得时,称比严格占优,记作。
称比占优,记作,是指对一切成立。当且存在使得时,称比严格占优,记作。
当比中的任何策略都占优时,称为局中人甲的占优策略(dominant strategy);当比中的任何策略都占优时,称为局中人乙的占优策略;当为甲的占优策略,为乙的占优策略时,称为的占优解或占优均衡(dominant equilibrium)。
容易看出,是占优策略当且仅当对一切成立;是占优策略当且仅当对一切成立。所以,博弈的占优解必是最优解,这也就是把占优解叫做占优均衡的缘故。表1给出了占优解与最优解的比较。
表1: 最优解与占优解的比较
最优解
占优解
在乙作出选择的情况下,甲作出最好的选择
在甲作出选择的情况下,乙作出最好的选择
不论乙作出什么选择,甲当前的选择都是最好的
不论甲作出什么选择,乙当前的选择都是最好的
特别地,考虑二人有限博弈,其中和为局中人甲的策略表和收益矩阵,和为局中人乙的策略表和收益矩阵。
甲的策略比策略占优,意思是说不论乙采取什么策略,甲采取的收益都不比采取的收益少。若用表示收益矩阵的第个行向量:,则当且仅当。是甲的占优策略当且仅当对一切成立,即是收益矩阵的最大行向量。
对于乙来说,用表示的第个列向量:。类似地,我们有:当且仅当;是乙的占优策略当且仅当对一切成立。所以,是乙的占优策略当且仅当是收益矩阵的最小列向量。
当为常和博弈时,乙的策略比策略占优又等价于,这里和表示列向量。因此,甲的占优策略是收益矩阵的最大行向量所对应的甲的策略,乙的占优策略是收益矩阵的最小列向量所对应的乙的策略。这样,博弈的占优解就是由的最大行向量和最小列向量所决定的交点。
例1.广告竞争
表2: 广告竞争的收益表
乙
甲
作广告
不作广告
作广告
10,5
15,0
不作广告
6,8
10,2
有两个厂商甲和乙在开展广告竞争,双方的利益都受到对方是否作广告的影响。如果双方都作广告,则甲可得10万元的产品销售利润,乙可得5万元的产品销售利润;如果双方都不作广告,则甲的利润为10万元,乙的利润为2万元;如果甲作广告,而乙不作广告,则甲的利润为15万元,乙的利润为0万元;如果甲不作广告,而乙作广告,则甲的利润为6万元,乙的利润为8万元。在这个博弈中,甲和乙的纯策略集合为:,收益矩阵分别为:
,
显然,,。这说明“作广告”既是甲的占优策略,也是乙的占优策略。只要甲和乙都是理性经济活动者,那么他们就都会采取“作广告”策略。
如果换个情形,比如把甲的收益矩阵修改一下:把第2行修改成为,那么可以看出,虽然乙要选择占优策略,但甲却选不出占优策略,因而博弈的占优均衡不存在。由于没有占优均衡,局中人在策略选择的决定上就要困难一些。幸好这里尽管甲选不出占优策略,但能够选出最优策略:作广告。因此,“作广告”是双方的最优选择,但不是占优选择。
二.占优混合策略
当用以上给出的占优准则来对最优混合策略进行筛选时,则有更简便的筛选办法。
命题1.设是的混合扩充,其中,。又设,。则
当且仅当对一切成立;
当且仅当对一切成立;
当且仅当且存在满足;
当且仅当且存在满足。
本命题的证明留给请读者作为练习。
今后,我们把关于博弈的混合扩充而言的占优策略及占优均衡,分别叫做局中人的占优混合策略和博弈的占优混合均衡。上述命题说明,混合策略是甲的占优混合策略,等同于说不论乙采取什么纯策略,甲的预期收益都是最大的。同样,乙采取占优混合策略,意味着不论甲采取什么纯策略,乙的预期收益也都是最大的。
三.半占优与被占优策略
当博弈的占优均衡存在时,我们就只需关心占优均衡好了,均衡的精化变得简单。但是,占优均衡不总是都存在的。在均衡存在但占优均衡不存在的情况下,为了减少均衡数目,应当剔除一些均衡。究竟应该剔除哪一些均衡呢?这需要一种标准和剔除办法。
考虑博弈,设是局中人甲的最优策略。如果甲没有其他最优策略能够比严格占优,则称是甲的半占优策略(partially dominant strategy)。如果甲有某种最优策略能够比严格占优,那么就称是甲的被占优策略(dominated strategy)。同样,我们可给出乙的半占优策略和被占优策略的定义。
按照通常的信念,让局中人执行他的被占优策略是不合情理的。这就意味着我们应该剔除被占优策略,保留半占优策略。均衡的精化过程就是不断剔除被占优策略的过程,最后只剩下半占优策略或占优策略,从而使均衡数目大为减少。
例2.被占优策略的剔除
表3:博弈的收益表
乙
甲
左
右
上
2,2
0,2
下
2,0
1,1
考虑博弈由表3(收益表)表达的博弈,其中,。可以看出,(上,左)和(下,右)是的两个均衡。但是,对于甲来说,策略“下”比策略“上”严格占优;对于乙来说,策略“右”比策略“左”严格占优。因此应该将(上,左)剔除,博弈的唯一均衡是(下,右)。
第七节 多人非合作博弈
二十世纪五十年代,美国数学家纳什(J.F. Nash)接连发表了多篇关于博弈论的研究论文,为现代博弈论的形成和发展奠定了坚实基础。纳什将矩阵博弈推广到多人情形,对多人非合作博弈作出了明确界定,提出了多人非合作博弈的纳什均衡概念,并于1950年应用日本数学家角谷静夫(S.Kakutani)提出的集值映射不动点定理,证明了纳什均衡的存在性。纳什定理的重要意义在于其结论可以直接向经济系统推广,而且这种推广是阿罗(K.J. Arrow)和德布罗(G. Debreu)重建瓦尔拉一般均衡理论大厦的关键所在。由于纳什均衡是矩阵博弈古诺均衡概念的推广,因此后人也常常把纳什均衡称作古诺-纳什均衡。
一.多人博弈的一般描述
设博弈中有个局中人:局中人1,局中人2,…,局中人。用表示局中人的策略集合,即可选择的策略的全体。当每个局中人都选定了自己的策略时,比如局中人选择了策略,所有局中人的策略便构成了博弈的一种局势:。鉴于此,笛卡尔乘积就称为博弈的局势集合。
每个局中人的收益不但取决于自己的策略,而且取决于其他局中人的策略。这样,每个局中人的收益都是局势集合上的实值函数。用表示局中人的收益函数,则当局中人采取策略,而其他人采取策略(时,局中人的收益为 。作了这些说明之后,这个人博弈便可简便地表示成:
从各个局中人的收益函数可以得到博弈的收益映射,其定义为:
于是,人博弈也可表示成为:。
如果对任何,都有,则称为人零和博弈。当然,也有人常和博弈、非常和博弈的概念,其含义是明显的。当人博弈的局势集合有限集合时,则称为有限博弈;否则,称为无限博弈。本节讨论人有限博弈。对于无限博弈,待留第九节中讨论。
设为人有限博弈,其中。当局中人1采取策略,局中人2采取策略,…,局中人采取策略时,我们把局中人的收益简记作,即。于是,收益函数可用矩阵(维阵)表示,这个维阵也称为局中人的收益表。
同二人博弈情形一样,局中人为了使自己的行动具有隐秘性,可采取混合策略,即以一定的概率来选择某种纯策略,这就引出了人博弈的混合扩充概念。局中人以概率选择纯策略,则概率分布表示着局中人的一种混合策略。所有可能的混合策略构成了局中人的混合策略集合:
是欧氏空间的非空有界闭凸子集。纯策略可看作局中人以概率1选择,以概率0选择其他策略的这么一种混合策略,因此。
当局中人1选择了混合策略,局中人2选择了混合策略,…,局中人选择了混合策略时,构成博弈的一个混合局势。由所有这些混合局势组成的集合:
称为博弈的混合局势集合。显然,混合局势集合扩大了原来的局势集合,即,
并且是欧氏空间中的非空有界闭凸子集。
在混合局势下下,局中人的预期收益为:
可见预期收益是混合局势集合上的一个实值连续函数,并且具有重线性性,即关于每个都是线性的:对任何及任何实数,都有
在混合策略的意义下,局中人追求的是预期收益的最大化,因此代表着一个人博弈,称为纯策略博弈的混合扩充。
作了上面一般性描述之后,表面上看似乎人博弈只是局中人数的增加。其实,事实并非如此。一方面,人博弈继承了二人博弈的一些性质,因而是二人博弈的推广。另一方面,人博弈绝不是简单地增加局中人数,它与二人博弈有着本质的不同。这种质的区别,表现为局中人之间的合作与非合作。人非合作博弈是矩阵博弈的推广,但人合作博弈则表现出十分复杂的性态。下面我们来讨论人非合作博弈中局中人的最优选择问题。
二.纳什均衡
在人博弈中,如果局中人之间没有形成任何的合作联盟,每个局中人都是独立地选择自己的策略,那么这样的博弈就称为人非合作博弈。前节讨论的矩阵博弈是典型的非合作博弈,其特点是参加博弈的局中人双方利害冲突,不是你输,就是你赢,没有任何调和的余地。矩阵博弈中局中人之间不会产生联盟,因为一旦出现联盟,就不能成为博弈。人非合作博弈,继承了矩阵博弈的这一特点,即局中人独立行动,独自决策,但每个人的收益都与各个局中人的行动有关,每个人的目标都是要在其他局中人行动已定的情况下使自己的收益达到最大。这样,人非合作博弈的最优解就是矩阵博弈最优解概念的推广。
设是人纯策略博弈的混合扩充,其中 。博弈是非合作的,即的各个局中人独自行动,独自选择自己的纯策略和混合策略。对于的任何一个混合局势以及局中人的任何一个混合策略,在混合局势中把局中人的策略用替代,其他局中人的策略不变,这样就得到一个新的混合局势:
显然的含义是说,在其他局中人选择策略的情况下,局中人选择了策略。局中人作出这种选择的预期收益为。
混合局势叫做在混合策略意义下的最优解(即的最优解),是指对每个局中人以及对任何混合策略,都有。当是博弈在混合策略意义下的最优解时,也称是的最优混合解或混合均衡或混合纳什均衡或混合古诺-纳什均衡,或者叫做的均衡或纳什均衡或古诺-纳什均衡。均衡中的策略,就叫做局中人的最优混合策略。
显然,混合局势是的混合均衡当且仅当对一切成立。这正是博弈均衡的含义之所在,用通俗的话来说就是,在均衡点处,任何局中人都不能从单方面改变策略来提高自己的收益。
纳什均衡存在吗?对此,我们作一分析。对于任何混合局势,令
即表示在其他局中人选择策略的情况下,使局中人的收益达到最大的策略的全体。显然,只与局势中其他局中人的策略有关,而与局中人的策略无关。称为局中人对其他局中人的行动的反应集合。
由于是的连续函数,且是的非空有界闭子集,因此函数在上必有最大值,这就保证了反应集合是非空集合,而且还是闭集合。记
这实际上给出了一个从混合局势集合到的集值映射。称这个集值映射为博弈的反应集值映射。
容易看出,混合局势是博弈的混合纳什均衡当且仅当,即当且仅当是反应集值映射的不动点。可见,纳什均衡的存在性问题,归结为集值映射的不动点问题。下面的角古定理给出了集值映射不动点存在的条件。
角古不动点定理(Kakutani's Fixed Point Theorem).设是有限维欧氏空间的非空有界凸闭子集,是集值映射。如果上半连续,并且对任何,都是非空凸闭集,那么必有不动点,即存在使得。
这条定理是角古静夫(Kakutani)在1941年证明的,它是对Brouwer不动点定理(1911)的推广。从该定理可知,为了说明纳什均衡的存在性,只需验证上面定义的集值映射满足角古不动点定理的条件。
首先,前面已经指出,混合局势集合是欧氏空间的非空有界凸闭子集,并且是非空闭集,因此也是非空闭集。其次,预期收益函数的重线性性保证了是凸集,因而也是凸集。最后,应用第四章第一节关于集值映射上半连续性的定理来说明的上半连续性,即来证明下述事实:
对于任何和,以及序列和,如果收敛于并且收敛于,则。
记,,, 。现在,已知,且。
就是说,也即对每个局中人以及任何,都有。令,则从的连续性可知,对一切局中人和一切成立。这说明,即。的上半连续性得证。
至此,反应集值映射满足角不动点古定理的全部条件,所以有不动点。这就得到下面的纳什均衡存在性定理。
纳什均衡存在定理(Nash,1950).任何人有限纯策略博弈在混合策略意义下必有最优解,即混合纳什均衡必然存在。
下面,我们给出用纯策略来判断混合纳什均衡的一个简便办法。
纳什均衡的简化.设是人纯策略博弈博弈的混合扩充,其中。是的混合纳什均衡当且仅当对每个局中人及任何策略都成立。
证明:必要性是显然的,以下证明充分性。为此,设对每个局中人及任何纯策略都成立。注意,
因此,对每个局中人以及对任何混合策略,都有
这就证明了是的混合纳什均衡。证完。
从以上讨论可以看出,对于非合作博弈而言,人博弈和二人博弈的情况差不多。进一步,同二人博弈一样,由于均衡的不唯一,人博弈也有相应的占优策略、半占优策略和被占优策略这些相应的概念,也要对被占优策略进行剔除,最好是能够找到占优均衡,最后使纳什均衡得以精化,使均衡数目得以减少。然而在寻找人非合作博弈最优解问题的研究上,迄今为止取得的实质性进展并不很大,遇到的困难主要是概念性的,因而还不能完全抛弃纳什均衡的基本思想,去从一个新的角度来研究非合作博弈。
第八节 多人合作博弈
现实生活中,多人博弈常常出现于这样的情况下:局中人之间具有合作的动机或行动,他们彼此交换情报,互换信息,协调行动,事先商量如何选择策略,以便取得对自己有利的结果。这种相互配合,团结一致,彼此协作的现象,就是合作博弈的原型。由于存在合作的动机或行动,因此一部分局中人会结成联盟,在博弈中采取一致行动,并且最终把联盟所得的收益重新分配给联盟的各个成员。那么,在一个博弈中,哪些人结成联盟?如何联盟?联盟中各个局中人采取什么行动才是恰当的,什么行动是有害的?诸如此类的这些问题,都是博弈论中应研究的问题。博弈论的近期发展中,对合作博弈的研究是一个十分丰富和活跃的领域。本节讨论人合作博弈,重点介绍冯·诺伊曼(von Neumann)建立的理论。
一.特征函数
在人合作博弈中,各个局中人如何选择策略已不是主要考虑的问题,应当强调的乃是联盟的形成。在现实生活中,结成联盟的形式是多种多样的,因而也是十分复杂的。联盟的形成可能是由局中人的收支情况决定的,也可能是由某些政治的、感情的、心理的因素等来决定的。总之,如要讨论形成联盟的原因,那这就是一个相当复杂的问题。这里,我们的重点不应放在形成联盟的原因讨论上,而应强调联盟的形成。我们认为,在一个联盟内,既然这些局中人已经结盟,他们之间就可以充分交换意见,传递信息,采取彼此协调的行动。
关于合作博弈与联盟问题,冯·诺伊曼建立的理论,尤其是他提出的特征函数概念,成为这方面研究的基石。冯·诺伊曼理论包含了一些有发展前途的、合理的内容,在此基础上进一步讨论和发展新的理论,无疑是相当有作用的。对于具体的博弈现象而言,冯·诺伊曼理论可用来指导各个局中人的行动,并对博弈现象进行解释。而冯·诺伊曼的特征函数的重要性,正如冯·诺伊曼所说:“我们希望把人零和竞赛的全部理论建立在这个函数的基础之上”,这里所说的竞赛,就是我们所讲的博弈。下面我们将会看到,通过特征函数可以把有关局中人之间的联盟,每一个联盟之内局中人之间进行的补偿,以及两个联盟之间的合并与斗争等问题,都能确定下来。
(一) 联盟
设是人纯策略有限博弈的混合扩充。用表示博弈的局中人集合。局中人之间的相互合作,表现为局中人的结盟,也即一部分局中人形成联盟。当然,这个联盟就是局中人集合的一个子集。经济学分析局中人的结盟时,着眼点并不放在分析这个联盟是出于何种原因形成的。联盟的特征在于它表现为的子集,因此可以把的任何一个子集都叫做联盟。这就给出下面的定义:
定义.博弈中的一个联盟是指局中人集合的一个子集。
在这个定义中,以下三点值得注意:
第一,如果是联盟,那么的余集也是联盟,称为联盟的余联盟。因此,任何一个联盟都把局中人分成了两个联盟,一个是,另一个是余联盟。
第二,全部局中人的集合和空集都可看作联盟,并且和互为余联盟。我们把空集称为空联盟。
第三,只含一个局中人的集合(即的单点子集)也是联盟,叫做单人联盟。这是联盟的特殊情形,实际上单人联盟并没有真正的结盟意义。
现在,设是博弈中的一个联盟。为了书写上的方便,记,即用表示的余联盟。把局中人分成两个联盟和,联盟中各个局中人在选择策略时互通信息,彼此合作,协调行动。同样,联盟中各个局中人也是如此。这样一来,我们可把当做博弈的局中人甲,而把当做博弈的局中人乙来看待。
按照这种观点,原来的人博弈就变成了一个只有两个局中人甲和乙的二人纯策略博弈:,其中,。博弈的局势集合可看成的局势集合,之所以可以这样看待,是因为。的局势可看成是的局势,其中是由联盟的各个成员在局势中采取的策略构成的,是由的各个成员在局势中采取的策略构成的。的收益函数可视为:;的收益函数可视为:。于是,我们得到如下事实:
博弈的任何联盟都把变成为一个可等同看待的二人博弈,其中为的余联盟。
联盟能把博弈变成为二人博弈,同样也能把的混合扩充变成为二人博弈。注意,二人博弈又有自己的混合扩充。因此,我们需要讨论和之间的关系,主要是看和是否是同样的博弈。
为了书写上的方便,不放设,,其中。则我们有以下的表示:
其中。由此可见,
对于,令,则;
对于,从下面方程组求解出所有的:
则, ,从而;
对于,令,则;
对于,从下面方程组求解出所有的:
则, ,从而。
以上结论说明,与可等同看待,与可等同看待。下面再来看一下博弈和的收益情况。
在变换下,的局势可与的局势等同看待。因此,对于任何,都有:
这说明与可等同看待,与可等同看待。
既然博弈和的局势集合与收益函数都可等同看待,和就是同样的博弈。这样,我们就可把和统一写成:。所以,联盟在把人博弈变成为二人博弈的同时,也把的混合扩充变成为二人博弈的混合扩充。
(二)特征函数的概念与性质
通过联盟,人博弈化简为二人博弈,由此可引出博弈的特征函数概念。
定义.设是人博弈的混合扩充,是的局中人集合,为的幂集,即由中的所有联盟组成的集合。对于任一联盟,,把看成由和构成的二人博弈,则。令
则定义了集合上的一个实值函数,称这个函数为博弈的特征函数。
当为人零和博弈时,通过联盟,变成为二人博弈。可以看出,和也都是零和博弈,并且就是的博弈值(参见上一节的内容)。可见,特征函数概念是博弈值概念的推广。
对于一般的人博弈而言,特征函数的值表达了联盟在博弈中至少可以得到的收入,即不论联盟外的局中人采取什么行动,联盟得到的收入不会低于。
下面,我们看一看特征函数的性质。
性质1. 对于空联盟来说,。
这是因为空联盟中一个局中人也没有,因而不会有收入或支出的发生,即。
性质2. 若且,则。
这是因为 表示和不合作时联盟至少能得到的收入,而表示和合作时至少能得到的收入,从而必有。
这里,我们应用有关特征函数的直接意义给出了性质2的证明,这种证明容易化为根据特征函数的精确定义进行的证明。从直接意义出发的证明,能让我们更清楚地看到问题的本质所在,简单明了,避免了繁杂的演算,而且不存在任何本质上的困难。
如果把性质2中的不等式换为等式,即要求特征函数满足:对任何不相交的,都有,那么就称具有可加性。对于具有可加性的特征函数来说,由于单点集也是联盟,并且,因此。这表明:当特征函数具有可加性时,局中人结盟与不结盟没有什么差别。可见,在合作博弈研究中,特征函数的可加性不能揭示合作的意义,因而人们对可加性并不感兴趣。鉴于此,凡是特征函数具有可加性的博弈,都称为是非本质博弈。人们感兴趣的是本质博弈。
性质3. 当为零和博弈时,对任何,都有。特别是当时,。
这是因为,当为零和博弈时,通过联盟所转化成为的二人博弈及其混合扩充也都是零和博弈,故联盟的收入就是余联盟的支出,即。
为什么把如上定义的函数叫做博弈的特征函数?一般来说,特征二字是不能随便使用的。如果说一种性质是某个对象的特征,那么这种性质就要能够完全刻划这个对象。特征函数能够完全刻划博弈吗?下面的性质4肯定地回答了这个问题。
性质4. 设,满足条件:且对一切不相交的成立,则存在一个人有限博弈使得正好是的特征函数。
进一步,如果还满足条件:对一切成立,那么必存在一个人有限零和博弈使得正好是的特征函数。
这条性质的证明过于复杂,这里就不去证明了。本性质表明,我们可以不联系任何具体的博弈,只从满足这两个或三个条件的函数出发来研究博弈。
例1.国际石油市场博弈的特征函数
设A国拥有石油,用于满足A国的运输业,利润率为;B国想购买石油,用于满足B国的制造业,利润率为;C国也想购买石油,用于满足C国的加工业,利润率为。设。这个博弈的局中人集合为,。我们来看一下该博弈的特征函数。
,这是特征函数的性质所决定的。
,这是因为购买国B和C的结盟,并不能迫使石油拥有国A出卖石油。如果A国把石油出卖给B国或C国,那么A国就得不到利润率,更得不到或,从而使利润率下降。可见,A国要把石油用于满足本国需要,去保证至少可以获得的最大利润率。
,这是因为A国与B国结盟后,A国可把石油卖给B国去得到较高的利润率,然后再在两国之间进行利润分配。
,这是因为A国与C国,或者A、B、C三国结盟以后,A国可把石油卖给C国,去获得更高的利润率。
二.合作博弈之解
在联盟形成以后,特征函数只表示这个联盟的总收入。这笔收入在联盟内部如何分配,便是一个重要的问题。收入分配办法,是形成联盟的一种契约。如果分配办法不恰当,那么联盟就形成不了,或者说该联盟内的局中人就不愿意结成这个联盟,而要去与其他局中人重新结盟。虽然特征函数在刻划博弈方面具有重要的意义,但是,如果只停留在特征函数的讨论上,那么从本质上讲也就停留在二人博弈的范畴之内。只有涉及局中人之间的收入分配时,才可以说真正触及到了人博弈的实质性问题。
(一)分配
为了研究局中人之间的收入分配,我们给出下面的定义。
定义.设是人博弈的局中人集合,为的特征函数。博弈的一个收入分配方案是一个满足如下两个条件的维向量,其中表示分配给局中人的收入:
① ,
② 。
这种表示收入分配方案的维向量,称为分配向量或分配方案,或者简称为分配。
在这个定义中,条件①是说分配给各个局中人的收入之总和要等于全部局中人之联盟的总收入。这就意味着全部局中人组成了统一联盟,然后从联盟中得到分配给的收入。
为了解释条件②,注意表示局中人不参加联盟,而靠自己单干所能获得的收入。条件②说明,局中人参加联盟所得到的收入要不低于他自己单干所得到的收入;否则他就不会参加联盟。如果参加联盟能够得到更多的收入,那么这样的联盟才具有吸引力。如果说局中人参加联盟所得到的收入还不如他单干得到的收入多,那么局中人对联盟的态度必然是漠不关心,因而会拒绝参加联盟,这样一来联盟也就无法形成,更谈不上联盟内的收入分配了。因此,条件②是讨论联盟时的必备条件之一。
在此,我们强调指出,任何分配向量都必然与某个联盟密切联系在一起,不可能离开联盟来谈分配。
今后,为了方便起见,记,,并称为单干收入分配向量。从特征函数的性质2可知,。下面来看一下分配的一般性质。
性质1. 向量是博弈的分配当且仅当存在向量满足:且。
这是因为,如果是分配,令,, 则,且。
反之,如果存在向量满足且,那么显然有且。故是博弈的分配向量。
性质2. 人非本质博弈的分配只有一种,它就是单干收入分配向量。
这是因为,对于非本质博弈来说,。因此,如果$是分配,那么必有且,这就说明。另外,向量确实也是分配。可见非本质博弈的分配就只有单干收入分配向量了。
性质3. 本质博弈的分配有无限多个。
这是因为,对于本质博弈来说,必然有。这样,根据分配的性质1,只要向量满足且,那么就是一个分配。显然,这样的向量有无限多个,从而本质博弈的分配也就有无限多个。
(二)核心
既然分配一般不会只有一种,局中人当然希望接受更好的分配。这就提出了一个问题:如何判断分配的好坏?为了给出分配好坏的判断准则,我们引入核心概念。把核心作为博弈之解,是夏普莱(L.S. Shapley)1953年提出的,是基里斯(D. Gillies)于1959年在他的论文“一般非零和博弈的解”中首次加以明确定义的。
定义.设是博弈的局中人集合,为的特征函数。
称分配比分配在联盟内占优,记作,是指:,并且对一切成立。
称分配比分配占优,记作,是指存在非空联盟使得,即使得分配比分配在联盟内占优。即。
当没有其他分配能够比分配占优时, 称为是核心分配。博弈的所有核心分配的全体,叫做博弈的核心(core),记作。
在这个定义中,条件是说,就分配方案而言,结成联盟会带来更多的好处,至少不会有什么坏处,即会得到比按方案分配的收入至少不低(甚至更多)的收入。如果说,那么结成联盟并不能给联盟成员带来更多的收入,因而联盟就无法形成。正是由于这个原因,当一个分配和一个联盟满足条件时,就称该联盟对于分配是有效的,或者称联盟是分配的有效联盟。
条件的含义也是很直观的。按照方案分配收入,联盟中每个成员都将得到比按照分配方案更多的收入,他们当然愿意接受分配方案,而要拒绝分配方案。
性质1. 如果分配比分配在非空联盟内占优,那么必不是单点集,也不是全部局中人集合,因而联盟中至少有两个成员,至多有个成员。
事实上,假如是单点集,即,则从可知。但也是分配,因而又有,出现了矛盾。矛盾的结论说明不是单点集。
现在,假定。则。但从是分配可知,出现矛盾。矛盾的结论说明不成立,即不是全部局中人的集合。
性质2. 在一个固定联盟内的占优关系具有传递性,但占优关系不具有传递性。
事实上,假若分配和满足且,则且对一切成立,从而并且对一切成立,这说明。关系的传递性得证。
为了说明关系不具有传递性,考虑例1所述的国际石油市场博弈,其特征函数为:,,,,。令
,,
容易验证:和都是分配,而且,,但没有一个联盟能使成立。故且,但不成立,即不具有传递性。
性质3. 设为人博弈的特征函数,为局中人集合,为的任一分配。则当且仅当对一切非空联盟成立。
必要性:设。假如存在非空联盟使得。用表示的余联盟。设中有个成员(),中有个成员()。令,。则,且从特征函数的性质可知 ,从而。
定义如下:当时,令;当时,。显然,对一切成立,并且。所以,是的一个分配向量。注意,且对一切成立。故,这与相矛盾。矛盾的结论说明,能使成立的非空联盟不存在,即对一切非空联盟成立。
充分性:设对一切非空联盟成立。假如分配,即假定存在非空联盟和分配使得。根据的定义可知,。这与发生矛盾,可见,不成立,即只有。性质3得证。
性质4. 设为人零和本质博弈,为的任一分配。则必存在的另一个分配使得,但不成立。
事实上,为零和博弈说明,这里为的特征函数,为局中人集合;为分配即是说且;为本质博弈说明。把这些事实结合起来便知,且。于是必存在局中人使得。令,并定义如下:,而对于,。显然,且。因此,是中的分配。
既然是的余联盟且为零和博弈,根据特征函数的性质,。但我们已知且,因此。注意,的定义告诉我们对一切成立,这说明,从而。
下面用反证法来证明不成立。假定成立,即假定存在非空联盟使得。则且对一切成立。根据上述性质1可知,中至少有两个成员,这样必存在使得。对于这个成员,从的定义知。但又给出,出现矛盾。矛盾的结论说明不能成立。性质4得证。
从性质4立即可知:
性质5. 人零和本质博弈的核心是空集。
本来,核心分配是人合作博弈的一种很有意义的解。然而性质5告诉我们,有不少合作博弈的核心是空集。这就使得我们对博弈之解的研究不能停留在核心之上,我们还需要寻找其他有意义的解。
(三) 冯·诺伊曼解
既然把核心作为博弈之解,一个博弈就有可能无解,那么还是让我们回到冯·诺伊曼(von Neumann)和摩根斯特恩(Morgenstern)当初(1944)提出的解的概念上去。
定义.设是由人博弈的一些分配所组成的集合。如果满足下面两个条件:
(1)中任二分配都分不出哪个占优,即中没有一个分配能比中的另一个分配占优;
(2)不在中的任一分配,都有中的某个分配,使得比占优。
则称是博弈的一个von Neumann-Morgenstern解(冯·诺伊曼解),简称VNM解(冯解),也称为的稳定集。
稳定集条件概念是对核心分配条件的放松。事实上,博弈的任何一个稳定集都包含着的核心。这是因为,对于,没有的一个分配能够比占优。假定,那么从是的稳定集可知,必有中的一个分配比占优,这与相矛盾。可见,只有。这就证明了。
由于稳定集包含的分配范围比核心要大,因此稳定集中的分配并不一定是所有联盟都感到满意的分配。也就是说,对于稳定集中的一个分配来说,可能会有某个联盟认为在稳定集外有一种比占优的分配,这个联盟就会要求采用稳定集外的方案,而不采用稳定集内的方案。所以,稳定集外占优方案的存在是一种把分配拉出稳定的“拉出力”。另一方面,尽管稳定集外的分配比稳定集内的方案占优,但在稳定集中存在着另一种分配,它比占优,即又有某个联盟认为比占优。这样,联盟就会坚持采用分配方案,而不采用分配方案。稳定集内这种占优方案的存在,是一种把分配从稳定集外拉回到稳定集内的“拉回力”。如果稳定集外还存在着比占优的分配,那么博弈中的分配就会被又一次拉出稳定集;但稳定集内始终存在更优的方案,因而又会把分配拉回到稳定集内。这种“拉锯式”的较量因拉回力总是存在的,而拉出力不一定总存在,最终还是要把分配拉回到稳定集内,达到“稳定”的局势。这正是把冯解称为稳定集的含义所在。下面举一个例子来说明冯解的具体含义。
例2.三人零和博弈的稳定集
设有这样一个三人零和博弈,其中任何两个人结盟后,都可从剩下的那个未加盟的局中人手中得到1个单位的收入。因此,博弈的特征函数为:,,。假定二人联盟内成员将平均分配联盟的总收入,于是是该博弈的三种分配方案。
令。容易看出,中的任何一种分配方案,都不会有中的另一种分配方案比占优。下面证明:外的任何一种分配方案,中都有某个分配方案比占优,从而是博弈的稳定集。
采用反证法,假定中没有一个分配能比占优。于是,对于联盟,不能成立;对于联盟,不能成立;对于联盟,不能成立。注意,。因此,说明或;说明或;说明或。结果,三个不等式、和中,至少有两个成立,不妨设和成立。
从知,。但是分配,所以。可见,从而。既然且,于是且,即。这与相矛盾。矛盾的结论说明,中必有一个分配比占优。
冯·诺伊曼和摩根斯特恩当初提出稳定集概念时,曾预言这就是博弈的一般解,并期望在此基础上会取得丰硕的成果。现在看来,这种期望过高了。用稳定集作为博弈之解,不能令人满意,其不足之处主要有三点:第一,这种解不能指导局中人如何进行决策;第二,它不象核心那样是唯一确定的一个集合,一个博弈可以有多个不同的稳定集,而要找出所有的稳定集,则是十分困难的事情;第三,表面上看稳定集似乎不会是空集,然而卢卡斯(Lucas)在1968年发现了一个没有稳定集的10人合作博弈,这个反例使得稳定集作为博弈之解也遇到了与核心类似的困难。由此看来,对博弈之解有待作进一步的研究。
(四) 其他解的概念
核心与稳定集遇到的麻烦,让人们又提出了许多其他解的概念,这里简要介绍其中主要的几个。
1. 夏普莱值(Shapley value)
核心虽然反映了集体的总利益,但并没有给出一种公平的办法去把总利益重新分配给各个成员。夏普莱在1953年提出了一种完全不同的方法来处理这个问题,他的想法是直接对“公平”概念作出定义或加以公理化。他提出了四条基本公理:(1)有效性,(2)虚设的局中人一无所获,(3)对称性,(4)可加性。在这四条公理下,他推导出了一个关于本质博弈的唯一确定的数值,即夏普莱值(Shapley value)。该值的计算公式是:人本质博弈的局中人的收益为:
其中,表示联盟的成员个数,为博弈的局中人集合,为博弈的特征函数。
夏普莱值的含义是:局中人可能以任何方式随机加入任何一个可能的联盟,他加入联盟就给联盟带来收益的增加(增加量为),诸联盟收益增加量的加权和就规定为局中人的夏普莱值。
到了1964年,夏普莱又对非本质博弈提出了夏普莱值的概念。1972年,欧文(G. Owen)在他的论文“人博弈的多重线性扩展”中推广了夏普莱博弈模型,研究了局中人似然加入联盟是否有偏的可能性。
2. 交易集(bargaining set)
交易集是奥曼(R.J. Aumann)与马希勒(M. Maschler)1964年提出的解概念,其思想起源于对谈判博弈的实验观察。这个概念的关键,在于要搞清楚对抗、反对抗、交易点的含义。 设是人博弈,为的特征函数,和为的某两个局中人。
对于分配来说,对的一个对抗是指由满足如下四个条件的一个联盟和一种分配所组成的对子:
① 是的成员;
② 不是的成员;
③ 联盟对于分配是有效的,即;
④ 联盟的所有成员都认为比好,即对一切成立。
设是关于分配来说对的一个对抗。的一个反抗也是指由一个联盟和一种分配组成的对子,要求满足如下五个条件:
① 不是的成员;
② 是的成员;
③ 联盟对于分配是有效的,即;
④ 中的每个成员都认为不比差,即对一切成立;
⑤ 中的每个成员都认为不比原分配差,即对一切成立。
满足如上五个条件的,也称为对的反抗。
如果对于分配来说,如果任何一个局中人对任何其他局中人的任何一个对抗都能由对的一个反抗所平息,那么就称分配方案是博弈的一个交易点(bargaining point)。的所有交易点构成的集合,称为的交易集(bargaining set)。
交易集已经在经济实验研究中得到了应用,但由于当局中人数达到3或4个以上时,其计算的复杂性和难度让人们对交易集的兴趣有所减弱。
3. 中心集(kernel)
1965年,戴维斯(M. Davis)和马希勒又提出了中心集的概念,它是交易集的一个子集。为了引入中心集,需要首先引入“超额”和“剩余”这两个概念。
联盟在分配下的超额收入,是指数值,即结盟与不结盟的收入之差。在分配方案下,局中人对抗局中人而得到的剩余收入,是指数值,即参加,而未参加的诸联盟的超额收入的最大值。博弈的中心集(kernel)是由满足如下条件:
的一切分配所构成的集合。中心集衡量着局中人对抗局中人的潜在交易压力,贯彻了压力平衡的思想。
除了以上三种解的概念外,史梅德勒(D. Schmeidler)1969年提出了核仁(nucleolus)概念,夏普莱和舒比克(M. Shubik)于1971到1974年间又提出并研究了-核,后来人们进一步提出了内核(inner core)概念。所有这些研究工作,共同构成了关于博弈之解的内容。
第九节 连续博弈
前面各节所讨论的博弈,假定了局中人从一个由有限个纯策略组成的策略集合中进行选择。然而在实际经济问题中,经济人常常是在一个由无限多个策略组成的策略集合中进行选择的,比如古诺博弈的局中人把产量水平作为要选择的策略,贝特兰博弈的局中人则把价格水平作为策略,不论是产量水平也好,还是价格水平也好,这样的策略都有无限多个。看来,需要对具有无限多个策略的博弈现象进行研究,这便是本章的主题。
一.二人连续博弈
一般的二人无限博弈可表示成,其中和都为一般集合。从形式上看,似乎无限博弈与有限博弈没有什么区别。但实际上二者是不一样的,从有限变为无限,问题的复杂性上升不止一个数量级。为了便于研究,让我们从最简单,又能反应博弈本质,具有简明性和代表性的二人零和无限博弈现象开始讨论。所谓零和,是指对一切局势成立。这就是说,甲的收入(支出)就是乙的支出(收入)。因此,二人零和无限博弈可简单地表示成,其中为甲的收益函数。
为了便于研究,假定局势集合上存在着拓扑结构,并且局中人的收益函数在这个拓扑结构下是连续函数。这种具有连续收益函数的博弈,就叫做连续博弈。要求局势集合具有拓扑结构,就是要求局中人能够对策略的变化情况进行衡量。要求收益函数的连续性,就是要求当策略变化不大时,收益的变化也不大。可见,这样的要求具有合理性。
(一) 纯策略与混合策略
对于二人零和无限策略博弈,局中人选择最优策略的原理依然是最小最大原理,本章第一节中证明的鞍点定理是对任何(有限或无限)零和博弈都成立的定理。
鞍点定理.是收益函数的鞍点的充要条件是:
根据鞍点定理,寻找二人零和无限策略博弈最优解的方法是,每个局中人都先在自己的任一可选择的策略下,寻找出对手选择各种策略情况下的最小收益,即先作最坏的打算;然后再在所有这些最小收益中找出最大收益,即寻求最好的结果。这就是局中人决策的最小最大原理。如果每个局中人都这样做,而且各个局中人最后确定出来的最优局势相一致,那么这种最优局势就是博弈的解。
然而同有限博弈一样,收益函数的鞍点可能不存在,因而博弈可能无解。在无解的情况下,博弈就成为高度不确定的。为了解决不确定问题,看来也需要使用混合策略。但现在的策略集合是无限的,因而需要使用分布函数工具来描述混合策略。为了不给讨论带来更多的麻烦,假定可以对纯策略进行量化,即可用实数来各种纯策略进行编号。这样,各个局中人的纯策略集合便都是实数集合的子集。
考虑一般二人无限纯策略博弈。设想每个局中人都要借助于某种随机装置来决定自己要选择的策略或行动。用表示局中人甲所借助的随机装置,表示乙所借助的随机装置。和实际上都是概率空间:,。对于事件和,数值和分别表示了事件和发生的可能性(概率)大小。
当局中人以某种概率来选择某种策略时,这样的选择就是一个随机变量,可用分布函数(或概率密度函数)来表达。比如设是一个分布函数,那么就表示局中人选择的策略小于策略的概率,因而代表了该局中人的一种混合策略。
用表示上的密度函数的全体,即代表着局中人甲的一切可能的混合策略的全体;用表示上的密度函数的全体,即代表着局中人乙的一切可能的混合策略的全体。于是,局中人的纯策略集合被扩充成为混合策略集合,博弈的局势集合从扩充成为。
对于任何一种混合局势,局中人的预期收益为
注意,对于没有定义。不过这不要紧,因为当时,局中人之间没有收支发生,可以认为此时。作了这个补充说明之后,上述积分是有意义的,而且该积分可直接写成:
于是,局中人的收益函数也从扩充成为预期收益函数。
这样,博弈扩充成为。还是这两个局中人的博弈,称为的混合扩充。显然,常和博弈的混合扩充依然是常和博弈,并且保持收益和不变。还可以证明,混合扩充的收益函数具有双线性性:对于任何, ,以及任何实数,都有
混合扩充的最优解,就叫做的最优混合局势或最优混合解或混合均衡,或者叫做在混合策略意义下的最优解。对于零和无限博弈来说,局中人在混合策略意义下选择最优策略的原理依然是鞍点定理给出的最小最大原理:是的最优
混合局势当且仅当。
一般来说,二人零和无限博弈在混合策略意义下的最优解总是存在的,这就是下述定理所说明的事实。
解的存在性.如果是二人零和连续博弈,且策略集合和都是实数直线的有界闭子集,则在混合策略意义下必有最优解。
虽然本定理肯定了零和博弈在混合策略意义下解的存在性,但是同矩阵博弈相比较,连续博弈的求解问题却要困难得多,目前还没有一般的解法。对于求解问题的详细讨论,已超出本书的范围,但在这里我们要对二人零和无限博弈的最优解作几点说明。
第一点说明:是二人零和连续博弈在混合策略意义下的最优解,当且仅当对任何及,都有。
解的存在性保证了等式成立。这个最小最大值称为的值或博弈值,记作,即。显然,若是在混合策略意义下的最优解,那么。
如果我们能够通过某种方法知道二人零和连续博弈的值的话,那么通过下面的第二点说明就可容易求得局中人的最优混合策略。
第二点说明:设为二人零和连续博弈,,。
(1)是局中人甲的最优混合策略,当且仅当对一切成立,又当且仅当对一切成立;
(2)是局中人乙的最优混合策略,当且仅当对一切成立,又当且仅当对一切成立。
第三点说明:对于二人零和连续博弈来说,如果是局中人甲的最优混合策略,是乙的任一最优混合策略,则是在混合策略意义下的最优解。
(二) 反应函数
博弈局中人决策时必然要考虑对手的行动,对对手行动要作出反应。第二节中曾介绍过的反应函数,就是描述局中人对对手行动的反应的函数,它是求解博弈的一般方法,在此作一回顾和总结。设二人连续博弈,是的混合扩充。
首先考虑甲对乙的反应函数。设乙采取了某种混合策略,甲获悉这一信息后选择了使自己预期收益最大化的混合策略:。假定对任何的,使得甲的预期收益达到最大的策略是唯一存在的。于是,甲的预期收益最大化策略和乙的策略之间便形成了一种对应关系,这个对应关系就是甲对乙的反应函数。换句话说,甲对乙的反应函数是这样一种映射满足条件:对于任何,。
同样可以引出乙对甲的反应函数,它是这样的一映射满足条件:对于任何,。
反应函数说明了一个局中人对另一个局中人的行动的反应情况,这正是反应函数的含义所在。另外,以上引出的反应函数概念,是在混合策略意义下定义的,从而有别于本章第一节中的反应函数概念,那里的反应函数是纯策略意义下的。
利用反应函数,可以解释博弈之解的意义。我们知道,博弈的最优解是这样的混合局势:。那么,这样的混合局势是如何达到的呢?
假如甲先行动,采取某种策略;乙获悉甲的这一行动后,认为甲不会改变策略,从而作出反应,采取策略,以使自己的收益最大化。
甲获悉乙的这一行动,认为乙不会改变行动,于是作出反应,采取策略,以求收益最大化;这时,乙对甲的行动再次作出反应,采取新的策略。
甲对乙的行动也再次作出反应,采取新的策略;乙对甲的行动也又一次作出反应,采取新策略。
这样不断反复下去,直到最后达到且时,局中人的行动调整才停止下来,甲乙双方实现了收益最大化,博弈实现了均衡。此时,甲的策略和乙的策略构成了博弈之解。可见,博弈之解是由各个局中人的反应函数所共同确定的,即是下面方程组的解:
基于这个事实,如上的方程组称为博弈的反应方程组。
进一步,如果把局中人的反应函数复合起来,则可得到复合反应函数。比如,局中人甲的复合反应函数是,其定义为,即。乙的复合反应函数是,其定义为,即。通过复合反应函数,博弈之解问题可以转化成为映射的不动点问题,即我们有如下两个结论:
如果是甲的复合反应函数的不动点,则是乙的复合反应函数的不动点,并且是博弈的最优混合解。
如果是乙的复合反应函数的不动点,则甲是的复合反应函数的不动点,并且是博弈的最优混合解。
二.多人连续博弈
对于无限博弈来讲,多人与二人的区别也不只是局中人数的增加。一方面,多人博弈继承了二人博弈的一些性质,是二人博弈的推广。另一方面,多人博弈绝不是局中人数的简单增加,它将表现出与二人博弈质的不同,即在多人博弈中会出现合作,而合作博弈要表现出十分复杂的性态。下面按照非合作与合作两种情况,讨论多人无限博弈。
(一) 非合作博弈
非合作博弈是指各个局中人独立行动,局中人之间没有形成任何联盟。前面讨论的二人零和连续博弈是对非合作无限博弈的简明刻画,其特点是它表明了局中人之间的利害冲突关系。非合作博弈的最优解是纳什均衡意义下的解,即是二人零和无限博弈最优解的推广。
1.纳什均衡
设是一个非合作的人无限博弈,的局势集合,这是一个无限集合。对于及局中人的任何一个策略,记
表示在其他局中人采取局势中的策略的情况下,局中人采用策略。显然,。于是,表示在其他局中人采取局势中的策略 的情况下,局中人采用策略的收益。
对于局势,如果对一切成立,则称是博弈的纳什均衡或最优解,简称为的均衡或的解。显然,局势是的均衡当且仅当。用通俗的话来说,博弈的均衡就是使每个局中人都不能从单方面改变策略来提高自己收益的一种局势。当为博弈的解时,均衡局势中的诸策略称为局中人的最优策略。
2.反应集映
为了讨论纳什均衡的存在性问题,考虑多人连续博弈。所谓是人连续博弈,是指的局势集合上赋予了某种拓扑结构,并且在该拓扑结构下各个局中人收益函数都是连续函数。连续性主要是要说明,只要各个局中人的行动变化不大,局中人的收益也就不会有大的变化。在经济分析中,连续性常常被作为一种自然的条件而予以接受。
假定每个局中人的策略集合上都赋予了一种拓扑结构,博弈的局势集合赋予了相应的积拓扑,各个局中人的收益函数在积拓扑下都连续。对于任何局势,令
即表示在其他局中人采取局势中的策略的情况下,局中人的收益达到最大的策略的全体。只与其他人的策略有关,而与局中人自己的策略无关。我们把叫做局中人对其他局中人的行动的反应集合。显然,引出了一个集值映射,称这个集值映射是局中人的反应集映。可以看出,反应集映是二人博弈中局中人的反应函数的推广。
为了保证反应集合是非空的,我们需要策略集合的紧性(参见第一章)。这是因为,只要各个局中人的策略集合是紧集,那么紧集上的连续函数必有最大值,从而各个局中人的收益函数的连续性保证了反应集合是非空集合,而且还是闭集合。
对于,记
这实际上给出了一个从到的集值映射,称这个集值映射为博弈的反应集映。容易看出,局势是博弈的纳什均衡当且仅当,即当且仅当是的反应集映的不动点。可见,纳什均衡的存在性问题划归为集值映射的不动点问题。下面的范-格利克斯堡(Fan-Glicksberg)定理给出了集值映射不动点存在的条件。
范-格利克斯堡定理.设是拓扑向量空间的非空紧凸子集,是集值映射。如果上半连续并且对任何,都是非空闭凸集,则有不动点,即。
这条定理是范(Fan)和格利克斯堡(Glicksberg)在1950年证明的,它是对角谷不动点定理的推广。由此可知,为了说明纳什均衡的存在性,只需验证反应集映满足范格利克斯堡定理的条件。为此,我们提出下面两个假设:
假设G1.博弈的每个局中人的策略集合都可表示成为某个拓扑向量空间的非空紧凸子集。
假设G2.是在局势集合上的积拓扑下是连续博弈,并且每个局中人的收益函数关于策略变元都是弱拟凹的,即对于任何局势,任何策略以及任何实数,只要,就有。
纳什均衡的存在性.在假设G1和G2下,博弈的纳什均衡存在。
证明:假设G1保证了局势集合是某个拓扑向量空间的非空紧凸子集。假设G2保证了集合是非空闭凸集。下面应用第四章关于集值映射上半连续性的定理来证明反应集映的上半连续性。即要证明:对于任何和,以及任何序列和,如果且,则。
记,,, 。现在,已知,且。
就是说,也即对每个局中人以及任何,都有。令,则从的连续性可知,对一切局中人和一切成立。这说明,即。的上半连续性得证。
到此,反应集值映射满足范-格利克斯堡定理的全部条件,从而有不动点,即的纳什均衡存在。证完。
假设G1和G2所述的条件并不是苛刻的。事实上,有限纯策略博弈的混合扩充就满足假设G1和假设G2。因此第七节中所述的纳什定理,以及本节前面所述的均衡存在性定理,都是这里的纳什均衡存在性定理的特例。
3. 带约束条件的纳什均衡
仔细分析上面的一段推理, 不难发现, 纳什均衡的存在性定理还有进一步的广泛形式。要看出这一点,只要注意每个局中人的选择范围不会因其他局中人改变行动策略而发生变化,也就是说,局中人的允许选择范围始终都是整个策略集合。这个要求似乎有些强,应该认为每个局中人的允许选择范围都只是策略集合的某个子集,而且这个范围同其他局中人选定的策略有关,其他人的策略可能会使局中人的行动受到限制,使中的某些策略成为不允许局中人去选择的策略。这样,对于任一局势,局中人只被允许在的某子集中去选择收益最大的策略。当一个博弈中局中人的策略选择受到附加条件的限制时,这样的博弈就叫做带约束条件的博弈。
我们对约束条件作一个严格的定义。局中人在策略选择上的约束条件是一个从局势集合到策略集合的集值映射满足如下两个条件:
对任何,,即是的非空子集;
对任何,与局势中局中人的策略无关。
显然,约束条件是对应。今后,我们就把称为约束对应或约束集映。带约束条件的博弈也就可表示成为。
局势叫做博弈的纳什均衡,是指对每个局中人来说,都有。这种带附加条件的博弈的纳什均衡,也叫做带附加条件的纳什均衡。
定义集值映射及如下:对任何,
集映叫做局中人的反应集映;叫做博弈的反应集映。易见,是带约束条件的纳什均衡当且仅当,即当且仅当是的反应集映的不动点。
带附加条件的纳什均衡存在定理. 设带约束条件的博弈满足假设G1和G2,并且约束集映是连续的闭凸集值的对应,则有纳什均衡。
证明. 假设G1保证了局势集合是某个拓扑向量空间的非空紧凸子集。假设G2及是非空闭凸集,保证了集合是非空闭凸集。下面应用第四章关于集值映射上半连续性的定理来证明反应集映的上半连续性,即证明:对于任何和,以及任何序列和,如果且,则。
记,,, 。现在,已知,且。
就是说,也即对每个局中人,都有,并且任何,都有。
首先,约束集映的上半连续性保证了,因为, 。
其次,约束集映的下半连续性说明,对任何,存在满足。既然,我们有对一切成立。令,则从的连续性可知。由于是任意的,因此。
结合与可知,对一切成立,这就证明了,的上半连续性得证。
到此,反应集值映射满足范-格利克斯堡定理的全部条件,从而有不动点,即的纳什均衡存在。证完。
(二) 合作博弈
现在,我们讨论局中人之间具有合作动机或合作行动的人无限博弈。在这种博弈中,由于存在合作的动机或行动,一部分局中人会结成联盟,在博弈中采取一致行动,并且最后把联盟所得的收益重新分配给联盟的各个成员。这样的活动,使得具有合作的博弈从本质上完全不同于非合作博弈。
在人合作博弈中,各个局中人如何选择策略已不是主要考虑的问题,应当强调的是形成联盟。现实生活中,结盟形式多种多样,也是十分复杂。联盟的形成可能是由局中人的收支情况决定的,也可能是由某些政治的、感情的、心理的因素等来决定的。总之,如要讨论形成联盟的原因,那这就是一个相当复杂的问题。这里,我们的重点不应放在形成联盟的原因讨论上,而应强调联盟的形成。我们认为,在一个联盟内,既然这些局中人已经结盟,他们之间就可以充分交换意见,传递信息,采取彼此协调的行动。
1. 特征函数
设是人无限博弈,是局中人集合。同人有限博弈一样,任何联盟都把博弈变成为二人无限博弈,其中,,,局势,是由局势中联盟的成员的策略构成的向量,是由局势中联盟的成员的策略构成的向量。
令,则定义了集合上的一个实值函
数,称这个函数为博弈的特征函数。为了保证特征函数的定义是有意义的,我们提出如下的连续性假设,在这个假设下数值就真正代表了联盟的总收益。
连续性假设.每个局中人的策略集合上都赋予了一种拓扑结构,使得成为紧空间。博弈的局势集合赋予了相应的积拓扑,各个局中人的收益函数在积拓扑下都连续。
容易看出,当满足连续性假设时,通过联盟所变成的二人博弈也满足连续性假设。当为零和博弈时,通过联盟所变成的二人博弈也是零和博弈,并且就是的博弈值。无限博弈的特征函数也具有有限博弈那样的三条基本性质:
性质1. 对于空联盟来说,。
性质2.若且,则。
性质3. 当为零和博弈时,对任何联盟,都有,从而。
如果把性质2中的不等式换为等式,即当对一切不相交的联盟和都成立时,称特征函数具有可加性。特别是,对于具有可加性的特征函数来说,对一切联盟成立,这表明局中人结盟与不结盟没有什么差别。可见特征函数的可加性不能揭示合作的意义。这种具有可加特征函数的博弈,称为非本质博弈。本质博弈的特征函数不具有可加性,人们感兴趣也是本质博弈。
2. 分配
特征函数只表示了联盟的总收入,那么这笔收入在联盟内部如何分配呢?如果分配不当,那么就没有形成联盟的凝聚力,即使形成了联盟,也是会散伙的。为了研究联盟内部的收入分配问题,我们把满足条件和的维向量 ,叫做分配向量或分配方案,简称为分配,其中称为分配给局中人的收入,称为的单干收入,叫做单干收入分配向量。
条件意味着全部局中人组成了统一联盟,并从这个联盟中得到收入。条件意味着局中人参加联盟所得到的收入不低于单干的收入,联盟的吸引力就在于参加联盟能够得到更多的收入。我们还要强调,任何分配都必然与某个联盟密切联系在一起,不可能离开联盟谈分配。
从特征函数的性质可知,。上一节中关于有限博弈的分配的性质,对于无限博弈的分配也是成立的。
性质1. 向量是的分配当且仅当存在向量使得且。
性质2. 人非本质博弈的分配只有单干收入分配向量。
性质3. 本质博弈的分配有无限多个。
3. 核心
无限博弈的核心概念同有限博弈是一样的。回忆一下,核心是通过占优关系来定义的。所谓分配比分配在联盟内占优,记作,是指:,并且对一切成立。所谓分配比分配占优,记作,是指存在非空联盟使得。即,。当没有其他分配能够比分配占优时,称为是核心分配。博弈的所有核心分配的全体,叫做博弈的核心(core),记作。
定义中的条件是说,就分配方案而言,结成联盟会带来更多的好处,至少不会有什么坏处,即会得到比按方案分配的收入至少不低(甚至更多)的收入。如果说,那么结成联盟并不能给联盟成员带来更多的收入,因而联盟就无法形成。正是由于这个原因,当一个分配和一个联盟满足条件时,就称该联盟对于分配是有效的,或者称联盟是分配的有效联盟。
定义中的条件是说,按照方案分配收入,联盟中每个成员都将得到比按照分配方案更多的收入,他们当然愿意接受分配方案,而要拒绝分配方案。
无限博弈的核心分配也具有与有限博弈核心同样的性质,简述如下。
性质1. 如果分配比分配在非空联盟内占优,那么必不是单点集,也不是全部局中人集合,因而联盟中至少有两个成员,至多有个成员。
性质2. 在一个固定联盟内的占优关系具有传递性,但占优关系不具有传递性。
性质3. 设为人博弈的特征函数,为局中人集合,为的任一分配。则当且仅当对一切非空联盟成立。
性质4. 设为人零和本质博弈,为的任一分配。则必存在的另一个分配使得,但不成立。
性质5. 人零和本质博弈的核心是空集。
本来核心是人合作博弈的一种理想的解,但现在已经看到,有不少合作博弈的核心是空集。因此对于合作博弈,需要对解的含义进行进一步的深入研究,其做法同有限合作博弈情形类似,这里就不再细述了。
第十节 序列博弈与信息
迄今讨论的博弈都具有简单的动态结构,即它们是一次性博弈,或者是一次性博弈的重复序列,而且还具有简单的信息结构,即每个局中人都知道其他局中人的收益情况和可采用的策略,但不知道其他局中人的真实策略选择。换句话说,各个局中人都是同时移动的。但是,实际中的许多利益博弈并没有这种结构,局中人的选择不是同时作出的,而是先后作出的,即一个局中人是在知道了其他局中人的具体行动后才行动的。这种在行动上具有先后顺序的博弈现象,就是本章要讨论的序列博弈,它引起了经济学家的极大兴趣,而且对它的分析需要一些新的概念。
一.序列博弈
要分析序列博弈,关键是要想透各个局中人的可能行动与理性反应。局中人的行动就是选择一种策略,这种行动在博弈论中称为移动或着法。我们将会看到,分析局中人顺序移动的序列博弈往往要比分析局中人同时移动的策略博弈容易一些。为了分析序列博弈的结果,我们需要引入一些新的概念。
(一) 博弈的扩展形式
我们通过一个生产选择问题的博弈事例,来说明序列博弈的分析方法,进而引出博弈的扩展形式。
例1. 生产选择博弈
有两家食品公司甲和乙面对着同一个市场,在这个市场上可以引进两种新的不同类早餐食品:甜食和酥食,但每一家公司都只具有生产其中一种早餐食品的资源,因而每家公司都只能供应一种早餐食品。表1给出了这两家食品公司供应早餐的收益情况。
表1: 早餐供应收益表
乙
甲
酥食
甜食
酥食
-5,-5
10,20
甜食
20,10
-5,-5
如果这两家公司都不顾对方意向,各自独立地同时采取行动,那么他们很可能同时都选择供应甜食早餐,从而双方都蒙受损失。如果两家公司采取顺序行动,比如甲先推出自己提供的早餐食品,那么乙根据甲的行动就会选择供应另一种早餐食品,从而双方都获利。于是,这是一个序列博弈。
在这个博弈中,甲首先采取行动时,必须考虑对手的理性反应。甲知道,不论自己选择那种早餐食品供应市场,乙必然会选择另一种早餐食品来供应市场。这样,让甲的收益达到最大的方案是供应甜食,甲的最优策略就是供应甜食早餐。甲先移动,获得收益20个单位;乙后移动,获得收益10个单位。
表2: 生产选择博弈表
酥食 –5,-5
酥食 乙公司
甜食 10,20
甲公司
酥食 20,10
甜食 乙公司
甜食 –5,-5
也可用另一种简便的办法来分析这个博弈。甲公司一切可能的选择策略以及乙公司一切可能的响应行动可改用表2来表示,表2的右端列出了甲和乙的收益情况。为了找出博弈之解,只需从表的右端开始,从右向左看去。对于甲来说,最好的移动序列是让他获得20个单位收入的移动序列。在这个序列中,乙获得10个单位的收入。
博弈的这种表示方式,就是所谓的博弈扩展形式,它包含者对博弈过程的详细描述。实际上,在有关寡头垄断、拍卖、讨价还价、国际贸易等问题的研究中,都充斥着对行动过程的部分或完整描述,而讨价、还价、威胁、许诺、需求等等是这种描述的关键之处。博弈论为过程描述提供了一种形式语言,让我们能够对博弈规则及行动过程细节加以准确地叙述。这种用以描述博弈规则和博弈过程的形式语言,就是博弈的扩展形式。粗略地讲,扩展形式提供了博弈的“扩展性”描述,而本章前四节介绍的博弈属于策略形式,它是对博弈的一种简化描述。
1. 博弈树
以扩展形式描述一个博弈的最简便方法是使用博弈树(game tree),它是冯·诺伊曼和摩根斯特恩于1944年提出来的,后来由库恩(Kuhn)在1953年给以发展。当时,他们讨论的是有限博弈,其中局中人的个数、可供选择的策略的个数、以及每次移动中的着法都是有限的。象棋与扑克游戏是这种博弈的典型事例,经济学中也有不少这样的博弈原型。
例2. 库恩的博弈树:双头垄断市场
·
· · · · · · · · ·
图8-1 库恩的博弈树
有两个厂商甲和乙垄断着某一产品的市场,这两个厂商同时在三种可能的产量水平中进行选择。他们选定的产量决定着市场的供给,同时也决定着两个厂商各自的收益。假定厂商甲先选择自己的产量水平,然后乙再选择自己的产量水平。库恩用下面的树形图来表示这个双头垄断市场博弈(见图8-1),这是对该博弈的一个扩展形式的描述,称为库恩博弈树。该树是一个有根树,树根是它的第一个节点,也是第一级节点,用表示之。第二级节点有三个:,用表示之,即。第三级节点有九个:。
每一个节点都代表着博弈的一种状态,表示着局中人的一种决策。尤其是最后一级节点,它们当中的每一个都代表着博弈的一个回合的结局。树的每一枝都代表着局中人的一个移动序列,也表示了博弈的一个回合,这里总共有九个回合,其结局由第三级节点所代表。甲先移动,即先选择通向第二级节点的三个树枝中之一。然后,乙选择通向第三级节点的九个树枝中之一,一个回合宣告结束。
2. 子博弈与完全均衡
博弈树的每一枝都代表了该博弈的一个移动序列,因此博弈树所表示的博弈是序列博弈。反过来,表达序列博弈的最好方式是使用博弈树,这种树形结构图清楚地展现了博弈中的各种可能的移动序列和最终的收益情况。今后,我们把博弈树的每一枝叫做分支(branch)。
甲
酥食 甜食
乙 乙
酥食 甜食 酥食 甜食
子博弈 子博弈
图8-2 生产选择博弈树及其子博弈
博弈树指明了博弈的动态结构:一些选择在另一些选择之前作出。博弈的每一个选择都对应于对博弈树的一个分支的选择,一旦选定一个分支,那么从该分支的这个节点处往下看去,局中人就进入了一个子博弈(sub-game)之中。也就是说,博弈树的每个节点都代表着一个子博弈,该子博弈是从该节点处往下的那个子树所表示的博弈。例如,从库恩博弈树的每一个第二级节点处往下的树形图,都是该双头垄断博弈的子博弈(共有三个子博弈)。 又如例1所述的生产选择博弈,用博弈树表示即图8-2,它有两个子博弈。
可以直接计算每个可能的子博弈的纳什均衡。我们把子博弈的纳什均衡,称为子博弈均衡。比如在例1中,用博弈树来表示生产选择博弈之后,甲公司面临着两个子博弈:甲选择供应酥食情况下乙的博弈,甲选择供应甜食情况下乙的博弈。计算这两个子博弈的纳什均衡,可知在甲选择酥食的情况下乙的最优选择是供应甜食,在甲选择了甜食的情况下乙的最优选择是供应酥食。两个子博弈的均衡分别是(10,20)和(20,10)(见图8-2),这就是说,在第一个子博弈中甲的收益为10,在第二个子博弈中甲的收益为20个单位。既然甲先移动,甲的最优选择便是进入第二个子博弈,即选择甜食早餐来供应。乙随后移动,乙的最优选择是供应酥食早餐。因此,这个序列博弈的均衡策略是(甜食,酥食),甲乙双方的收益分别为20和10个单位。显然,这个均衡是整个博弈在纳什意义下的均衡。按照序列移动方式找出这个均衡,要比按照同时移动方式来寻找更容易一些。
生产选择博弈还有另外一个纳什均衡:(酥食,甜食),但这个均衡并不是甲先移动的生产选择序列博弈的均衡。可见,序列博弈的均衡与同时移动博弈的均衡是有区别的。赛尔顿(R. Selten)在1975年对扩展形式的博弈提出了完全均衡的概念,在他的原始定义中,一个完全均衡是这样的博弈结局:局中人在所有到达的子博弈中处于均衡状态。具体地,对于序列博弈来说,先移动者在所有的子博弈均衡中都相应地有一个收益,使这个达到最大的那个子博弈所对应的总博弈局势,就是总博弈的完全均衡(perfect equilibrium)。显然,完全均衡是纳什均衡,但并非所有纳什均衡都是完全均衡。比如,生产选择博弈中,局势(甜食,酥食)是完全均衡,但局势(酥食,甜食)尽管是纳什均衡,却不是完全均衡。
计算完全均衡相当容易,至少在我们所述的生产选择博弈事例中是如此。一个简单的做法是“倒退归纳”。最后行动的局中人只有一个简单的最优化问题,没有博弈树的分支,故很容易解决该问题。倒数第二个采取行动的局中人,可以事先观察最后行动的局中人如何响应他的选择,然后选择出使自己收益最大化的策略。如此不断进行下去,由于局中人数是有限的,最后就可确定出完全均衡来。
在关于序列博弈的早期研究中,还有一种均衡概念---子博弈完全均衡(subgame perfect equilibrium)。所谓博弈的一个纳什均衡是子博弈完全均衡,是指该均衡满足每一个子博弈的均衡条件。我们用下例来说明子博弈完全均衡的概念。
例3. 子博弈完全均衡
甲
上 下
乙 乙
左 右 左 右
子博弈 子博弈
1,9 1,9 0,0 2,1
(均衡) (均衡) (均衡)
纳什均衡 子博弈完全均衡
图8-3 子博弈完全均衡
考虑图8-3所描述的博弈树。容易证明,该博弈有两个纳什均衡:(上,左)和(下,右)。这两个纳什均衡隐藏的含义是两个局中人同时作出各自的选择,没有关于其他人已经作出选择的知识。但现在假定了局中人甲先采取行动,乙在观察了甲的行动之后再开始作出选择。
如果甲选择“上”,这就意味着甲有效地选择了一个子博移。在这个子博弈中,只有乙保持移动,乙的两个策略“左”和“右”无差异。所以,甲选择“上”的结果,是甲肯定性地获得1个单位的收益。如果甲选择了“下”,那么乙的最优选择是“右”,它给甲带来2个单位的收益。这说明甲选择“下”的结果,是甲将获得2个单位的收益。
可见,甲选择“下”比选择“上”要更好一些。因此,对于这个博弈来说,合理的均衡是(下,右),即选择完全均衡。不仅如此,均衡(下,右)还具有这样的性质:列选择右是每一个子博弈中列的最优选择。所以,(下,右)是子博弈完全均衡。
纳什均衡(上,左)就不同了。尽管当甲选择“上”时,“左”是乙的最优选择,但当甲选择“下”时,“左”就不是乙的最优选择。所以,乙选择“左”不是所有子博弈中乙的最优选择,(上,左)不是子博弈完全均衡。
3. 信息集
博弈的扩展形式可用于模拟一些序列博弈和同时移动博弈。在做这样的模拟时,一个必需又重要的概念是信息集。局中人的信息集是所有那些不能为该局中人所区分的博弈树节点构成的集合。
比如例3所述的博弈,我们给它附加一个条件:当乙必须作出自己的选择时,他不能区分甲作出了哪一个选择。这样,图8-3中博弈树的两个第二级节点便构成了乙的信息集(如图8-4所示),其意义表示:乙在进行选择时,不知道甲作出了什么选择。于是,甲乙的先后选择就好象双方的选择是同时作出的。
甲
上 下
乙 乙
乙的信息集
左 右 左 右
图8-4 局中人的信息集
附加信息的存在,使得在模拟局中人的行动策略方面,使用博弈扩展形式比使用策略形式更加有力。扩展形式能够包含局中人之间策略互动的更详细信息,而且这些信息有助于剔除一些“不合理”的纳什均衡。下面,我们来看一个简单的讨价还价模型。
例4. 讨价还价博弈
设有一个单位的收入(比如1元钱)要在两个人甲和乙之间进行分配,他们同意至多用三天时间来协商分配方案。第一天,甲先报价(即甲先提出一个分配方案),乙或者接受甲的报价,或者在第二天还价。第三天,甲报最后的出价。如果他们在三天内达不成协议,则这1个单位的收入就不再在甲和乙之间进行分配,从而双方收入为零。
甲和乙的耐心程度是不同的:甲每天以贴现率来折现未来收入,乙每天以贴现率来折现未来收入。我们再假定,如果一个局中人对某两种分配方案(出价)感到无差异,那么他就接受其中那个为对手最喜欢的方案(出价)。这个假设的意义在于保证博弈中只有唯一的完全均衡。
现在,我们采用“倒退归纳”法来分析这个博弈的完全均衡。设在第三天,甲报最后的出价。此时甲的最优选择就是报出一个为乙所能接受的最低价,这个最低价就是乙在分配中得到零单位收入,甲得到1单位收入。所以,如果这个博弈持续三天,那么博弈的最终结局就是甲得到1,乙得到零。
回到第二天。此时,乙开始还价。乙会意识到,只要甲否决自己的还价,甲就会在第三天得到全部1单位的收入,而自己只能得到零。对于甲来说,第三天的1单位收入等于第二天的单位收入。因此,乙的还价不能低于,否则甲会否决乙的还价,使乙得不到任何分配的收入,这显然不是乙所期盼的。另一方面,乙又要使自己能够得到尽可能多的收入,故乙的还价也不会使甲的收入多于个单位。这样,在第二天还价中(即第二次的移动中),乙的最优选择是还价,在这个价格上,甲乙双方达成协议,甲得到单位收入,乙得到单位收入。可见,这个博弈最多持续到第二天。
现在,回到第一天。在此点上,甲开始报价。甲会意识到,只要博弈持续到第二天,他就只能得到个单位的收入,而乙会得到个单位的收入,这相当于在第一天甲得到个单位的收入,乙得到个单位的收入。甲为了避免延误时机,必须给乙出一个不低于的价格。但甲为了使自己的收入尽可能大,甲的报价也就不会高于。故在第一天,甲对乙的报价为:让乙得到个单位的收入。乙发现甲的这个报价可以接受,于是达成协议,从而1单位收入在甲和乙之间分配完毕,甲得到个单位的收入,乙得到个单位的收入。所以,这个博弈实际上在第一天就结束了,博弈的完全均衡是:甲的收益=,乙的收益=。
(二) 先着的优势
例1中的生产选择博弈,甲公司先移动,表现出了明显的优势,即甲比乙得到了更多的收益。实际上,这种现象并不是偶然的。在序列博弈的完全均衡中,由于完全均衡是按照先着者在他面临的各种可能子博弈均衡中的最大收入来确定的,因此先移动者的决策限制着后移动者的选择,让先着者获得了首先移动的优势。为了展现这种先着优势,让我们来看一下斯塔克尔伯格模型,并将它与古诺模型加以比较。
例5. 斯塔克尔伯格(Stackelberg)模型
设有两个完全相同的厂商垄断着他们的产品市场,两个厂商的边际成本都为零,市场反需求函数为:,其中表示两个厂商的产品总产量,为产品价格。假定厂商1先决定自己的产量,然后,厂商2观察厂商1的产量水平,并据此作出他的产量决策。显然,这是一个序列博弈,在这个博弈中厂商1必须考虑厂商2如何对他的行动产生反应的问题。因此,这个博弈模型有别于古诺博弈,在那里两个厂商具有同等的机会来对竞争对手的行动作出反应。
既然厂商2是在厂商1采取行动之后采取行动,我们考虑厂商2对厂商1的行动反应。当厂商1决定的产量为时,厂商2的收益(利润)函数为:。按照利润最大化准则,我们得到厂商2对厂商1的反应函数为:。
再看厂商1的行动。厂商1知道,当他把产量定为时,厂商2就要把产量定为 。于是,厂商1的收益(利润)为:,边际收益为 。根据原理,使厂商1获得最大利润的产量水平为。于是,厂商1的最优产量为15.然后,根据厂商2对厂商1的反应函数,可知厂商2的产量水平为 。这样就得到了该序列博弈的完全均衡,而且明显地,先着者厂商1的市场占有量是后着者厂商2的市场占有量的两倍,先着者的利润也是后着者的利润的两倍,这就显示出了先着者的优势。
如将序列移动假设更换为同时移动假设,则这个模型就变成为古诺模型,其纳什均衡为(10,10),即双方的产量水平都为10.可见,在序列移动情况下,先移动者厂商1的收益状况比同时移动情况下的收益状况变得更好,而后移动者厂商2的收益状况比同时移动情况下变得更糟。
斯塔克尔伯格模型和古诺模型都描述了寡头厂商的行为,哪一个模型更接近实际呢?这与所考虑的行业有关。对于由差别寡头组成的行业来说,这两个模型没有一个具有操作上的优越性,谁都不能占居领导地位。但对于那些有巨头企业的行业来说,由于巨头在新产品开发和产品定价方面具有领导作用,比如IBM公司就是电脑行业中这样的巨头,斯塔克尔伯格模型就更具有实用性。
二.威胁
以上的讨论没有考虑后行者的威胁,从而先行者必然要采取对自己最为有利的行动策略,以获得先行者优势。现在,我们从一个更广泛的角度来考察先行者的优势,并分析是什么因素决定了一个局中人能够在序列博弈中先采取行动的问题。我们将把此问题具体化为:企业采取什么样的行动才能使企业在市场上获得优势地位?比如,企业如何才能阻止潜在竞争者进入行业,或者如何才能诱使当前竞争者抬高价格或减少产量或完全离开行业?企业如何才能同举足轻重的竞争对手达成默契?凡是能给企业带来这种优势的行动,称为企业的战略或称为战略移动。歇凌(T. Schelling)给战略下了一个很好的定义,他说:“一个战略是一种行动,它能以对一个人自己最有利的方式来影响其他人的选择,影响其他人对这个人行动的预期。采取这样的行动,一个人在限制了自己行为的同时,也限制了竞争对手的行为。”
限制自己的行为,获得优势地位,这种想法似乎自相矛盾。其实不然,让我们再次以生产选择博弈为例来说明这一点。首先引进早餐新品种的公司会力图把事情做好,但究竟由哪家公司来首先引进呢?即使两家公司以相同的时间来生产早餐食品,他们也都各有动机来先把自己约定在供应甜食早餐上,这里的关键在于“约定”一词。如果甲公司简单地宣布他将供应甜食,那么乙公司是不会相信的,而且当乙公司知道了这种动机时,还会以更宏亮的声音宣布他也供应甜食。所以,甲公司必须限制自己的行为,以使乙公司相信甲除了生产供应甜食之外,别无选择。为此,甲可能需要在他引进甜食之前大力进行广告宣传,提高自己产品的声誉。也可能需要签订食糖的大批订购合同,并公开该合同,或者把该合同送给乙公司一份以供目睹。甲此举的目的,无非是要约定自己生产供应甜食早餐。甲公司的这种约定行动就是一种战略,它诱使乙公司作出为甲所期盼的选择,即诱使乙去生产供应酥食早餐。
(一)不可信的威胁
在上面的生产选择博弈中,甲公司宣布自己生产供应甜食早餐时,为什么不向乙公司施加威胁,以阻止乙宣布做同样的事情呢?原因在于乙不相信甲的威胁是真的,而且乙还会向甲施加同样的威胁。只有当发出的威胁可信时,威胁才会起作用。下面的事例说明了这一点。
例6. 微机与字处理器的定价博弈
设有两家电脑商甲和乙,甲生产个人微机,既可用于文字处理,又可用在许多其他用途上,而乙生产专用于文字处理的电脑---字处理器。表3列出了这两家厂商的收益情况。
表3: 定价博弈收益表
乙
甲
高价出售
低价出售
高价出售
100,80
80,100
低价出售
20,0
10, 20
从收益表可以看出,只要甲以高价出售他的微机,则不论乙以高价还是低价出售他的字处理器,甲和乙都可获得可观的收入。尤其是在甲采取高价销售策略,乙采取低价销售策略的情况下,尽管价格上的差别诱使一些人来购买乙的字处理器,但由于微机除了能够进行文字处理外,还可完成许多其他任务(这是字处理器所替代不了的),仍然还是有许多消费者要购买甲生产的个人微机,因而甲的收入依然可观。然而,如果甲采取低价销售策略,那么甲乙双方的收入都要大幅度减少,此时乙的最优选择是也以低价销售他的字处理器。
明显地,高价出售是甲的占优策略,低价出售是乙的占优策略。甲自然希望乙能以高价出售字处理器,希望得到(100,80)的结局。如果乙坚持以低价出售产品,那么甲可宣布以低价销售微机来对乙形成威胁,因为只要甲采取低价,乙的收益就会大幅度下降。所以,低价出售策略是甲对乙的{\heiti 威胁策略}。而乙对甲却形成不了威胁。那么,甲扬言要执行威胁策略,是否真正能够对乙形成威胁,阻止乙以低价销售字处理器呢?答案是否定的,这是因为只要甲以低价出售微机,不尽乙蒙受损失,而且甲自己也要蒙受巨大损失。可见,甲的威胁不可信,不起作用,乙不相信甲会真地执行威胁策略,因而乙将会继续以低价出售他的产品。
通过以上分析说明,不可信的威胁影响不了纳什均衡(80,100)的实现,定价博弈的最终结局是甲乙双方都执行纳什均衡策略,至于谁先采取行动,则是无关要紧的。所以,在不存在可信的威胁的情况下,不论局中人谁先采取行动,其结果都是一样的,没有先行动者的优势可言。本例所述的情形,适用于那些存在着领导企业的行业,在这些行业中,领导企业的(定价)行为对整个行业有着举足轻重的影响。
(二) 可信的威胁
有些时候,局中人能够发出可信的威胁,促使博弈局中人之间达成协议,从而改变博弈的结局。让我们以赛车生产公司(Race Car Motors,Inc.,简称赛车公司)和远程引擎公司(Far Out Engines, Ltd.,简称远程公司)为例,来说明企业是如何做到这一点的。
表4: 赛车和远程的收益表
赛车
远程
小型车
大型车
小引擎
3,6
3,0
大引擎
1,1
8,3
赛车公司生产汽车,远程公司生产专用汽车发动机。远程的产品大都卖给赛车公司,只有少量流向外部市场。因此,远程公司高度依赖于赛车公司,它的生产计划是对赛车公司生产计划的响应。这就引出了赛车公司和远程公司之间的一场序列博弈,其中赛车公司是领导者,是先行动者,由它决定生产什么样的汽车,而远程公司随后决定生产什么样的发动机。表4列出了这个博弈的收益情况,其中利润是以百万美元来计的。
从收益表可以看出,(3,6)和(8,3)都是纳什均衡。对于赛车公司来说,生产小型车是最优的生产计划。既然赛车公司先采取行动,因此这个计划会得以执行,远程公司只有响应这一计划,去生产小引擎,并几乎全部卖给赛车公司,从而实现纳什均衡(3,6),让远征公司获得3百万美元利润,赛车公司获得6百万美元利润。然而,远程公司更希望实现纳什均衡(8,3),希望赛车公司生产大型车,自己生产大引擎,并把引擎卖给赛车公司,获得8百万美元的利润,同时赛车公司获得3百万美元的利润。那么,远程公司能否给赛车公司施加威胁,诱其生产大型车,而不是小型车?
假如除了远程公司外,其他引擎公司都无法满足赛车公司的需要,而且远程公司向赛车公司发出威胁,表明自己无论如何都要生产大引擎。如果赛车公司信以为真,它就只有生产大型车了,因为不然的话,它将在为小型车寻找小引擎方面遇到麻烦,从而只能得到1百万美元利润,而不是3百万。然而,远程公司的这种威胁并不可信。一旦赛车公司强硬坚持生产小型车,那么远程公司执行威胁策略就无利可图了。
表5: 修改后的收益表
赛车
远程
小型车
大型车
小引擎
0,6
0,0
大引擎
1,1
8,3
远程公司可进一步采取行动,使它的威胁成为可信的。比如,远程公司可拆除它的小引擎生产线,迫使博弈的收益表变为表5。这时,赛车公司看到,不论自己生产什么类型的汽车,远程公司只能生产大引擎了(生产大引擎是远程公司的占优策略)。于是,远程公司的威胁变得可信,赛车公司也就只好生产大型车了。远程公司的这种似乎把自己置于不利地位的战略,改变了博弈的结局,终于实现了原来的纳什均衡(8,3),从而极大地提高了自己的利润(这种战略是有效的,但却是危险的。一旦有其他公司生产小引擎,并且成本更低的话,那么这种战略就会导致远程公司的破产)。
公司的名声在获得战略优势方面也会起到一些作用。比如说,远程公司的非理性(甚至有点疯狂)已为人知,赛车公司不能肯定非理性的远程公司是一个利润最大化的追求者。这种情况下,远程公司威胁说要生产大引擎,就会取得赛车公司的相信,而不需要采取其他行动。因此在博弈中,局中人带点非理性的疯狂会有助于获得优势。
以上分析表明,可信的威胁可以使局中人双方达成一种协议,从而改变博弈最终实现的均衡,使发出威胁者在博弈中获得优势。
(三) 进入壁垒
企业如何才能阻止潜在竞争者进入市场?这个问题可用序列博弈加以分析,所要涉及的是进入壁垒(entry deterrence),这是形成垄断的重要根源,而且往往是自然存在的,比如规模经济、政府特许、专利等都是自然的进入壁垒。但有些时候,厂商也可以亲自制造一些进入壁垒,给潜在竞争者进入市场造成障碍。
表6: 进入的可能性
我
你
进入市场
不进入市场
高价销售
50, 10
100,0
低价销售
30,-10
40,0
为了阻止其他厂商进入市场,垄断厂商必须让潜在竞争者相信进入市场后将无利可图。我们以例来说明垄断厂商如何才能筑起这座进入壁垒。假定读者处于垄断厂商的位置上,而我是你的一个未来竞争者。我可以花40万元建造一个工厂进入你的产品市场,你当然不希望我闯入。如果我不进入,你就可继续以高价销售产品,获得垄断利润,正如表6所示的你我收益情况,你的垄断利润为100万元。
如果我进入市场,你就必须面对现实,作出决策。你可采取迁就的态度,容纳我的进入,继续保持高价销售产品,并希望我也这么做。这样的话,你我分享市场,你的利润为50万元,我的利润为10万元(因为我有40万元的进入成本),实现了收益表左上角的结果。
你也可采取另外的做法,同我展开较量:提高生产能力,增加产量,并降价出售产品。提高生产能力当然会增加你的成本,降价又意味着收入的减少。于是,这场较量会使你我双方的利润都下降,如收益表所示,你的利润为30万元,我的利润为$-10$万元(即毛收入为30万元,低于40万元的进入成本,从而造成10万元的损失)。由此可见,如果你迁就,我进入市场就有利可图;如果你不迁就,要同我展开较量,那么我进入市场就无利可图。因此,你可能会对我采取威胁,不让我进入市场。如果我相信了你的威胁,那么我就不会进入市场,因为进入后要造成10万元的损失。然而,你的威胁是不可信的。从表6可以看出,我进入市场后,你最好采取容纳的态度,同我分享市场,继续以高价出售产品。要不然,你本来可得的50万元利润将减少到30万元。如果我不进入,我就得不到任何收入。因此,我的最优策略是不相信你的威胁,勇敢地进入市场,你是会容纳我的,并与我一起共同垄断市场,以高价出售产品,从而实现收益表左上角的结果。
表7: 改变后的收益表
我
你
进入市场
不进入市场
高价销售
20, 10
70,0
低价销售
30,-10
40,0
以上分析说明,不可信的威胁不能帮助垄断厂商筑起进入壁垒。可见,只有可信的威胁才能完成此任,以阻止其他潜在竞争者进入市场。那么,如何才能使威胁可信呢?与前面分析相同,垄断厂商可以采取进一步的行动,比如签订一份不可撤消的协议,使他几乎无选择余地,只要有新的厂商进入市场,他就只能以低价出售产品。这样做,方可让潜在竞争者相信当前垄断厂商的威胁是真的。例如,你现在可新增加30万元的投资,以扩大你的生产能力。此举让你我的收益表变成为表7。
表7说明,你的“低价销售”威胁策略完全可信,因为我进入市场后,让你获得最大收益的策略就是低价销售,这就给我造成10万元的损失。所以,你的可信的威胁帮你筑起了进入壁垒,我也就只好不进入该市场了,从而你可以高价出售产品,获得70万元利润,收益表(表7)右上角的结果得以实现。
如果你公司有着非理性的名声,那么将有助于让我相信你的低价销售威胁是真的,而不需要你采取如上的进一步行动。非理性的垄断者能够恐吓住潜在竞争者的进入。另外,如果博弈重复无限多次,那么当前垄断者就更有理由真正执行威胁策略,以短期的损失求得长期的收益。因此,对于无限重复的博弈来说,当前垄断者的威胁是可信的。
以上介绍了市场保护的三种有效做法:使威胁成真的进一步行动、非理性的名声、以短期损失求长期收益,这些做法在现实市场中都是可以见到的。
三.不完全信息
到目前为止,我们讨论的博弈都具有完全的信息,即我们假定每一个局中人都知道所有局中人的收益函数。这是一个不合适的假定,现实中一个局中人通常不可能知道所有其他局中人的收益情况,从而纳什均衡没有多大的意义。对此,哈萨尼(J.C. Harsanyi,1967)作了系统的分析,创造了一种研究不完全信息博弈的方法。
哈萨尼把每个局中人关于其他局中人的所有不确定性(比如关于其他局中人对某一商品价值判断的不确定性、对风险规避的不确定性等等)归结为一个变量,并称为该局中人的类型(type)。每一类型的局中人都被当作不同的局中人,每一个局中人都有定义在不同类型局中人之上的先验概率分布。
在这种不完全信息博弈中,每一类型的局中人都要使自己的预期收益最大化,博弈的最终结局是实现贝叶斯纳什均衡:每个人都在其他局中人不改变策略的情况下达到了最大的预期收益。这个定义除了增加关于其他局中人类型的不确定性外,基本上与纳什均衡的定义类似。每个局中人知道其他局中人从一切可能的类型中进行选择,但不知道究竟选择哪一个类型。因此,为了有对均衡的完全描述,必须考虑所有的可能性。
均衡的这个定义对于同时移动的博弈来说是合适的,但对于序列博弈来说,就要允许局中人基于他们对行动的观察来调整关于其他局中人类型的信念,通常我们假定这种调整是按照贝叶斯规则进行的。这样,如果一个局中人观察到了另一个局中人选择了策略,那么他就应该根据被各种类型所选择的可能性情况来校正他关于另一个局中人属于什么类型的信念。下面,我们通过一个具体事例来说明贝叶斯纳什均衡。
例7. 密封投标
有一个项目要进行密封投标拍卖,投标者只有两人,最高投标者将得到该项目。每个投标者都是在不知道其他人的投标的情况下,独立作出投标。他知道自己对所拍卖项目的估价,但不知道其他人的估价。不过,每个投标者都相信,其他人对该项目的估价在0和1之间均匀分布。于是,这个简单的密封投标是一个不完全信息博弈。
在这个博弈中,局中人(投标者)对项目的估价可认为是局中人的类型,用表示之。用表示类型为的局中人的最优投标,这个函数就是该博弈的贝叶斯纳什均衡。显然,估价越高,投标也就越高。因此,我们可以认为投标函数是局中人的估价的严格递增函数,从而存在反函数。用表示的反函数,它给出了投标为的投标者对该项目的估价。
因为最高投标者将得到该项目,所以投标为的局中人赢得该项目的概率,等于另一局中人投标小于的概率,也等于另一局中人对该项目的估价小于的概率。既然估价均匀地分布于0和1之间,另一局中人估价小于的概率就为。这样,投标为的局中人取得成功的概率为。
当一个局中人估价为时,他投标为的预期收益便为,式中第一项表示投标成功的预期剩余,第二项表示投标失败的预期剩余(为零)。最优的投标必须使这两项之和达到最大,因而最优投标$V(b)$必然符合等式,这个等式为局中人确定了作为估价的函数的最优投标。
由于是的反函数,因此是最优投标与估价之间的函数关系,故必然成立。此微分方程的解为,其中为常数。
注意,如果估价为零,那么投标也必为零。所以,当时,。这就确定了常数的值:,从而得出,即是这个密封投标拍卖的贝叶斯纳什均衡。这就是说,每个投标者的贝叶斯纳什均衡是以他估价的一半来投标。
以上是对贝叶斯纳什均衡的一个简单说明。贝叶斯纳什均衡的思想是精制的,也许是太精制的原因,导致包含在贝叶斯纳什均衡计算中的推理过于复杂,让人们难以相信实际中的局中人能够作出如此必要的复杂计算。
第八章练习
本章第二节例1所述的博弈高度不确定的原因是什么?请详细分析。
对于一般的二人博弈,其最优解的含义是什么?
本章第一节例1中的便士匹配博弈有最优解吗?
本章第一节例2中的囚徒博弈的最优解是什么?
解释鞍点定理的意义。
对于二人常和博弈来说,通过最小最大原理来求最优解和通过反应函数来求最优解这两种方法有何异同?各自的含义是什么?
试对重复博弈的均衡作出准确的定义。为什么收益的贴现率在实现重复博弈均衡中具有重要作用?
请对惩罚策略作出准确定义。一次性博弈均衡在重复博弈中起什么作用?
对于高度不确定的博弈,其重复博弈的结局如何?
证明本章第四节中阐述的事实(1)、(2)、(3)、(4)和(5)。
谈谈你对混合策略及其意义的理解。
证明:在本章第五节中阐述的最优基寻找过程(5)中,每一次排除出去的增广矩阵的列都不会被重新吸收进来,从而迭代次数是有限的,最后一次找出来的基必是最优基。
证明本章第五节所述的性质1的(2)、(3)、(4)成立。
证明本章第五节所述的性质3的(2)、(3)、(4)成立。
证明矩阵博弈的预期收益函数的连续性保证了混合最优解集合是闭集。
证明本章第六节的命题1。
在一个二人博弈中,局中人甲决定采用占优策略。设为局中人乙对甲选择所作出的反应策略,证明是该博弈的均衡。
在剔除被占优策略以后,下列博弈的均衡是什么?
的收益表
乙
甲
左
中
右
上
3,3
0,3
0,0
中
3,0
2,2
0,2
下
0,0
2,0
1,1
挑衅收益表
乙
甲
不让道
让道
不让道
-3,-3
2,0
让道
0,2
1,1
19. 考虑本章第一节例2中的囚徒博移,证明:在有限次重复的囚徒博弈中,每一回合局中人都选择背叛,这实际上是一种占优策略。
20.甲和乙正在相互挑衅,双方驾车迎面而来。如果双方互不相让,二人都将被撞死。如果甲向乙让道,甲感到太丢面子;乙向甲让道,乙也感到太丢面子。如何二人相互让道,他们都有些丢面子。右表给出这一挑衅行为的收益表。
找出所有的纯策略最优解。
找出所有的混合最优解。
在这个博弈中,甲和乙有没有占优策略?有没有半占优策略?
乙
甲
左
右
上
,
,
下
,
,
考虑右面的收益表所表述的博弈。要使(上,左)为该博弈的一个最优解,必须满足什么条件?要使(上,左)为该博弈的一个占优解,又必须满足什么条件?比较最优解条件和占优解条件的异同。
比较本章第七节的反应集值映射和第二节中的反应函数概念。
二人零和有限博弈的结论能否推广到人零和有限博弈?哪些结论可已推广,哪些不能推广?不能推广的困难何在?
对于人博弈,给出占优策略、半占优策略、被占优策略的定义。
阐述纳什均衡的主要思想,纳什均衡为什么能够存在?
试描述纳什均衡集合的形状。
联盟为什么能够把多人博弈变成为二人博弈?
通过联盟把人博弈变成为二人博弈,有什么重要意义?
解释特征函数的概念和作用。
严格证明本章第八节所述的特征函数的性质1、性质2和性质3。
单干收入分配向量是博弈的分配向量吗?为什么?
本质博弈和非本质博弈有什么实质性区别?
如何理解博弈核心(core)概念的意义和作用?
为什么零和本质博弈的核心是空集?
如何理解稳定集概念的意义和作用?
证明本章第九节对二人零和连续博弈所作的三点说明。
当局中人的策略集合都是实数直线的子集时,试求人无限策略博弈混合扩充,并证明混合扩充的最优解的存在性。
反应集映和反应函数有什么不同?这种不同属于实质性的,还是表面性的?
试对多人合作博弈给出稳定集、交易集、中心集的概念。
证明多人合作博弈的分配的性质1、性质2和性质3。
证明多人合作博弈的核心的性质1至性质5。
多人连续博弈和多人有限博弈能否放在一个统一的框架下研究?
比较角谷不动点定理和范-格利克斯堡定理。
请举例说明“先着优势”的含义。
什么是战略移动?企业声誉如何成为一种战略移动?
尽管战略移动限制了局中人的灵活性,但却给局中人带来优势。这是为什么?在讨价还价博弈中,战略移动是如何给局中人带来优势的?
价格战的威胁能否阻止潜在竞争者的进入?为了使威胁可信,企业会采取什么行动?