§9对策论
本章来介绍对策论(game theory).
对策是有厉害冲突的各方所分别采取的决策.对策论,亦称为博弈论,研究具有对抗、竞争、冲突性质的问题.
对策论的思想古已有之,如我国战国时期的“齐王与田忌赛马”.最早利用数学方法来研究对策论的是数学家E,Zermelo,他于1912年发表了论文《关于集合论在象棋对策中的应用》.1944年,J,Von Neumann和O,Morgenstern总结了前人关于对策论的研究成果,合著了《对策论与经济行为》(Theory of Games and Economic Behavior)一书,使得对策论的研究开始系统化和公理化,并具有了深刻的经济背景.1994年,在对策论研究中作出突出贡献的Nash,Harsanyi和Selten获得诺贝尔经济学奖.
对策问题的三个要素:
(1)局中人(player):参加对策的各方.
规定:局中人是聪明,理智的;将厉害关系一致的参加者视为一个局中人.
局中人集合:.
(2)策略(strategy):局中人在一局对策中为争取尽量好的结果用来对付对手的行动方案.
策略集合:局中人的全部策略.
局中人的策略集合:.
局势:在一局对策中,各局中人选定的策略构成的一个策略组.
局势决定本局对策的结果(收益).在一局对策中,一但局势确定后,即得本局对策的结果
(3)收益(earning):一局对策所得结果的数量表示.
收益或为赢得或为支付;收益由局势唯一确定,一但局势确定,即得收益,故收益和局势之间的此种对应在局势集合上构成了一个函数关系.
局中人的收益函数(earning function):.
显然,给定一个局势,即可得到局中人的收益.
综上,建立对策模型:.
对策过程:每一个局中人从其策略集合中选择一个策略,得到一个局势.将代入局中人的收益函数中,即得收益,本局对策结束.
例1(猜硬币游戏)甲乙两人各抛掷一枚硬币,在落地以前,以手覆之.双方约定:若两枚都是正面或反面,则甲得1分,乙得-1分;若一个正面一个反面,则甲得-1分,乙得1分;最终得分最多者为胜.
显然,这是一个对策问题,其中局中人为甲(1),乙(2),局中人集合为;局中人1的策略可能有(出正面),(出反面),局中人2的策略可能有(出正面),(出反面),局中人1,2的策略集合分别为,.
当局中人1,2分别从其策略集合中选择一个策略后,就得到一个局势.局势集合为.
由双方的约定知,局中人1,2在各局势下的收益分别为
,,,;
,,,.▍
二人有限零和对策(2-player finite zero-sum game):在一个对策问题中,有两个局中人,每个局中人的策略集合为有限集:,,.两个局中人的收益函数满足.
显然,在二人有限零和对策中,局势集合为,且.
设,则由知,,.
(局中人1的)收益矩阵:,其中,.
由收益矩阵的定义知,的第行各元素分别为局中人1出策略,局中人2出策略时对应的局势下局中人1的收益;的第列各元素分别为局中人2出策略,局中人1出策略时对应的局势下局中人1的收益.
显然,给定一个二人有限零和对策,即可确定一个支付矩阵;反之,给定一个矩阵,若令,,,则可确定一个二人有限零和对策.如此,二人有限零和对策和矩阵一一对应.故二人有限零和对策亦称为矩阵对策(matrix game),记作:.
在矩阵对策中,为局中人1的收益矩阵(赢得矩阵),为局中人2的收益矩阵(支付矩阵).
易见,例1猜硬币游戏即为一个矩阵对策,其中局中人集合为,局中人1,2的策略集合分别为,,收益矩阵为.
例2(田忌与齐王赛马)战国时期,齐王与大将田忌赛马,分别挑选出上,中,下三个等级的马各一匹进行比赛.齐王的马比同一等级的田忌的马强壮,而田忌的高等级的马比齐王的低等级的马强壮.双方约定:每赛一局,胜者得千金.
易见,此对策问题为一个矩阵对策,其中局中人为田忌(1),齐王(2),局中人集合为;局中人1的策略可能有上,中,下,局中人2的策略可能有上,中,下,局中人1,2的策略集合分别为,;收益矩阵为.
【引例】给定矩阵对策,其中,,,从收益矩阵可见,局中人1的最大收益为6,故“聪明的”局中人1为获得此收益,应出策略;但“聪明的”局中人2虑及局中人1的此种心理,会出策略,致使局中人1在局势下,获得收益-8;同样,局中人1也会虑及局中人2的上述心理而出策略,获得收益2;同样,局中人2也会虑及局中人1的上述心理而出策略,获得收益-2(局中人1的赢得为2).
在上述“角逐”中,局中人1,2最终在局势下分别获得了最大收益,.故局中人1,2的最优策略分别为.
显然,上述寻找局中人的最优策略的“角逐”式方法未免过于繁琐,那么有无其它方法呢?
回忆 决策论之求解不确定性决策问题的悲观主义原则:选取最小收益中的最大者对应的策略为自己的最优策略.
不妨分别利用悲观主义原则来求局中人1,2的最优策略.
先利用悲观主义原则来求局中人1的最优策略:
由知,局中人1的最优策略为,最优收益为.
再利用悲观主义原则来求局中人2的最优策略:
由局中人1的收益矩阵知,局中人2的收益矩阵为.
由知,局中人2的最优策略为,最优收益为.
事实上,亦可直接由局中人1的收益矩阵来求局中人2的最优策略:
由知,局中人2的最优策略为,最优收益为.
如此,在局势下,局中人1获得最优收益2,局中人2获得最优收益-2,局中人1的最优策略为,局中人2的最优策略为,且.
巧得很啊!当分别利用悲观主义原则求得的局中人1,2的最优收益在某一个局势下达到一致时,即得局中人1,2的最优策略,而此最优策略竟然与利用“角逐”式方法达到的最优策略是相同的.这里,道理在于:当两个局中人的最优收益在悲观主义原则下的同一个局势下达到一致时,即分别得到最优策略.
显然,作为局中人1的最优收益,满足,且.
Def设矩阵对策,若局势,使得,,有,则称为的策略解(鞍点),称分别为局中人1,2的最优策略(optimal strategy),称为的值(value),记作:.
Th矩阵对策策略解.
证明:令,则
,即,(1)
设策略解,则,有.
于是,.
进而,,(2)
由(1),(2)得.
设,令,则.令,则,有.故是的策略解.▍
注:一个直观的解释:若两个局中人无侥幸心理,仅虑及对方会设法使自己的收益最小,则应当选取最小收益中的最大者对应的策略为自己的最优策略(悲观主义原则).当两个局中人1,2分别利用悲观主义原则找到自己的最优策略,时,若,则即为矩阵对策的策略解.
推论 若矩阵对策中,,则是的最优策略,分别为局中人1,2的最优策略,且.
证明:Th的充分性的证明 + 定义.▍
例3求解矩阵对策,其中,,
.
的策略解为,局中人1,2的最优策略分别为,且.▍
例4求解矩阵对策,其中,,.
解:(略)都是的策略解,且.▍
注:矩阵对策的最优策略可能不唯一,但值是相等的.
例5求解矩阵对策,其中,,.
解:,
,,
无策略解,当然也无最优策略.▍
注:并非所有矩阵对策都有最优策略.
例6(剪子,包袱,锤)两个小孩玩“剪子,包袱,锤”游戏.剪子可裁包袱,包袱可包锤,锤可砸剪子.双方约定:胜者得1分,输者失1分,平局时各得0分.问:此对策问题有无最优策略?
解:易见,此对策问题为一个矩阵对策,其中剪子,包袱,锤,剪子,包袱,锤,.
解:,
,
,无策略解,当然也无最优策略.▍
注:本题目中由计算得到的结果与我们的生活常识(没有最优策略,只能随机出手)是一致的.
例6(续)田忌与齐王赛马问题亦无最优策略.▍
例7某病人可能患有三种疾病,医生可开的药有两种.两种药对不同疾病的治愈率见下表所示:
问医生应开哪种药最为稳妥?
解:此为一个对策问题,其中局中人分别为医生(1),病人(2),局中人集合为,局中人1,2的策略集合分别为,,支付矩阵为.于是,得矩阵对策.
,
的策略解为,局中人1的最优策略为.故医生给病人开药最为稳妥.▍
注:本题目中由计算得到的结果与我们的生活常识(“悲观主义”,劣中选优)是一致的.
例8(储煤问题)某单位计划在秋季购买一批煤炭,以供冬季取暖之用.根据往年经验知,在较暖,正常,较冷气温条件下消耗煤的数量分别为10吨,15吨,20吨.在秋季时,煤价为100元/吨;在冬季时,煤价会随气温的变化而变化,较暖,正常,较冷气温条件下的煤价分别为100元/吨,150元/吨,200元/吨.问:在没有当年冬季准确的气温预报的情况下,该单位应在秋季购煤多少,才能使冬季取暖费用最少?
解:此问题为一个对策问题,其中局中人分别为单位(1),气温条件(2),局中人集合为,局中人1的策略可能有在秋季购煤10吨,在秋季购煤15吨,在秋季购煤20吨,局中人2的策略可能有冬季气温较暖,冬季气温正常,冬季气温较冷,局中人1,2的策略集合分别为,.
局中人1,2的收益分别为
,
,
;
,
,
;
,
,
.
收益矩阵为.
于是,得矩阵对策.
的策略解为或,局中人1的最优策略为,且.
故该单位应在秋季购煤20吨,才能使冬季取暖费用最少,且最小费用为元.▍
本章来介绍对策论(game theory).
对策是有厉害冲突的各方所分别采取的决策.对策论,亦称为博弈论,研究具有对抗、竞争、冲突性质的问题.
对策论的思想古已有之,如我国战国时期的“齐王与田忌赛马”.最早利用数学方法来研究对策论的是数学家E,Zermelo,他于1912年发表了论文《关于集合论在象棋对策中的应用》.1944年,J,Von Neumann和O,Morgenstern总结了前人关于对策论的研究成果,合著了《对策论与经济行为》(Theory of Games and Economic Behavior)一书,使得对策论的研究开始系统化和公理化,并具有了深刻的经济背景.1994年,在对策论研究中作出突出贡献的Nash,Harsanyi和Selten获得诺贝尔经济学奖.
对策问题的三个要素:
(1)局中人(player):参加对策的各方.
规定:局中人是聪明,理智的;将厉害关系一致的参加者视为一个局中人.
局中人集合:.
(2)策略(strategy):局中人在一局对策中为争取尽量好的结果用来对付对手的行动方案.
策略集合:局中人的全部策略.
局中人的策略集合:.
局势:在一局对策中,各局中人选定的策略构成的一个策略组.
局势决定本局对策的结果(收益).在一局对策中,一但局势确定后,即得本局对策的结果
(3)收益(earning):一局对策所得结果的数量表示.
收益或为赢得或为支付;收益由局势唯一确定,一但局势确定,即得收益,故收益和局势之间的此种对应在局势集合上构成了一个函数关系.
局中人的收益函数(earning function):.
显然,给定一个局势,即可得到局中人的收益.
综上,建立对策模型:.
对策过程:每一个局中人从其策略集合中选择一个策略,得到一个局势.将代入局中人的收益函数中,即得收益,本局对策结束.
例1(猜硬币游戏)甲乙两人各抛掷一枚硬币,在落地以前,以手覆之.双方约定:若两枚都是正面或反面,则甲得1分,乙得-1分;若一个正面一个反面,则甲得-1分,乙得1分;最终得分最多者为胜.
显然,这是一个对策问题,其中局中人为甲(1),乙(2),局中人集合为;局中人1的策略可能有(出正面),(出反面),局中人2的策略可能有(出正面),(出反面),局中人1,2的策略集合分别为,.
当局中人1,2分别从其策略集合中选择一个策略后,就得到一个局势.局势集合为.
由双方的约定知,局中人1,2在各局势下的收益分别为
,,,;
,,,.▍
二人有限零和对策(2-player finite zero-sum game):在一个对策问题中,有两个局中人,每个局中人的策略集合为有限集:,,.两个局中人的收益函数满足.
显然,在二人有限零和对策中,局势集合为,且.
设,则由知,,.
(局中人1的)收益矩阵:,其中,.
由收益矩阵的定义知,的第行各元素分别为局中人1出策略,局中人2出策略时对应的局势下局中人1的收益;的第列各元素分别为局中人2出策略,局中人1出策略时对应的局势下局中人1的收益.
显然,给定一个二人有限零和对策,即可确定一个支付矩阵;反之,给定一个矩阵,若令,,,则可确定一个二人有限零和对策.如此,二人有限零和对策和矩阵一一对应.故二人有限零和对策亦称为矩阵对策(matrix game),记作:.
在矩阵对策中,为局中人1的收益矩阵(赢得矩阵),为局中人2的收益矩阵(支付矩阵).
易见,例1猜硬币游戏即为一个矩阵对策,其中局中人集合为,局中人1,2的策略集合分别为,,收益矩阵为.
例2(田忌与齐王赛马)战国时期,齐王与大将田忌赛马,分别挑选出上,中,下三个等级的马各一匹进行比赛.齐王的马比同一等级的田忌的马强壮,而田忌的高等级的马比齐王的低等级的马强壮.双方约定:每赛一局,胜者得千金.
易见,此对策问题为一个矩阵对策,其中局中人为田忌(1),齐王(2),局中人集合为;局中人1的策略可能有上,中,下,局中人2的策略可能有上,中,下,局中人1,2的策略集合分别为,;收益矩阵为.
【引例】给定矩阵对策,其中,,,从收益矩阵可见,局中人1的最大收益为6,故“聪明的”局中人1为获得此收益,应出策略;但“聪明的”局中人2虑及局中人1的此种心理,会出策略,致使局中人1在局势下,获得收益-8;同样,局中人1也会虑及局中人2的上述心理而出策略,获得收益2;同样,局中人2也会虑及局中人1的上述心理而出策略,获得收益-2(局中人1的赢得为2).
在上述“角逐”中,局中人1,2最终在局势下分别获得了最大收益,.故局中人1,2的最优策略分别为.
显然,上述寻找局中人的最优策略的“角逐”式方法未免过于繁琐,那么有无其它方法呢?
回忆 决策论之求解不确定性决策问题的悲观主义原则:选取最小收益中的最大者对应的策略为自己的最优策略.
不妨分别利用悲观主义原则来求局中人1,2的最优策略.
先利用悲观主义原则来求局中人1的最优策略:
由知,局中人1的最优策略为,最优收益为.
再利用悲观主义原则来求局中人2的最优策略:
由局中人1的收益矩阵知,局中人2的收益矩阵为.
由知,局中人2的最优策略为,最优收益为.
事实上,亦可直接由局中人1的收益矩阵来求局中人2的最优策略:
由知,局中人2的最优策略为,最优收益为.
如此,在局势下,局中人1获得最优收益2,局中人2获得最优收益-2,局中人1的最优策略为,局中人2的最优策略为,且.
巧得很啊!当分别利用悲观主义原则求得的局中人1,2的最优收益在某一个局势下达到一致时,即得局中人1,2的最优策略,而此最优策略竟然与利用“角逐”式方法达到的最优策略是相同的.这里,道理在于:当两个局中人的最优收益在悲观主义原则下的同一个局势下达到一致时,即分别得到最优策略.
显然,作为局中人1的最优收益,满足,且.
Def设矩阵对策,若局势,使得,,有,则称为的策略解(鞍点),称分别为局中人1,2的最优策略(optimal strategy),称为的值(value),记作:.
Th矩阵对策策略解.
证明:令,则
,即,(1)
设策略解,则,有.
于是,.
进而,,(2)
由(1),(2)得.
设,令,则.令,则,有.故是的策略解.▍
注:一个直观的解释:若两个局中人无侥幸心理,仅虑及对方会设法使自己的收益最小,则应当选取最小收益中的最大者对应的策略为自己的最优策略(悲观主义原则).当两个局中人1,2分别利用悲观主义原则找到自己的最优策略,时,若,则即为矩阵对策的策略解.
推论 若矩阵对策中,,则是的最优策略,分别为局中人1,2的最优策略,且.
证明:Th的充分性的证明 + 定义.▍
例3求解矩阵对策,其中,,
.
的策略解为,局中人1,2的最优策略分别为,且.▍
例4求解矩阵对策,其中,,.
解:(略)都是的策略解,且.▍
注:矩阵对策的最优策略可能不唯一,但值是相等的.
例5求解矩阵对策,其中,,.
解:,
,,
无策略解,当然也无最优策略.▍
注:并非所有矩阵对策都有最优策略.
例6(剪子,包袱,锤)两个小孩玩“剪子,包袱,锤”游戏.剪子可裁包袱,包袱可包锤,锤可砸剪子.双方约定:胜者得1分,输者失1分,平局时各得0分.问:此对策问题有无最优策略?
解:易见,此对策问题为一个矩阵对策,其中剪子,包袱,锤,剪子,包袱,锤,.
解:,
,
,无策略解,当然也无最优策略.▍
注:本题目中由计算得到的结果与我们的生活常识(没有最优策略,只能随机出手)是一致的.
例6(续)田忌与齐王赛马问题亦无最优策略.▍
例7某病人可能患有三种疾病,医生可开的药有两种.两种药对不同疾病的治愈率见下表所示:
问医生应开哪种药最为稳妥?
解:此为一个对策问题,其中局中人分别为医生(1),病人(2),局中人集合为,局中人1,2的策略集合分别为,,支付矩阵为.于是,得矩阵对策.
,
的策略解为,局中人1的最优策略为.故医生给病人开药最为稳妥.▍
注:本题目中由计算得到的结果与我们的生活常识(“悲观主义”,劣中选优)是一致的.
例8(储煤问题)某单位计划在秋季购买一批煤炭,以供冬季取暖之用.根据往年经验知,在较暖,正常,较冷气温条件下消耗煤的数量分别为10吨,15吨,20吨.在秋季时,煤价为100元/吨;在冬季时,煤价会随气温的变化而变化,较暖,正常,较冷气温条件下的煤价分别为100元/吨,150元/吨,200元/吨.问:在没有当年冬季准确的气温预报的情况下,该单位应在秋季购煤多少,才能使冬季取暖费用最少?
解:此问题为一个对策问题,其中局中人分别为单位(1),气温条件(2),局中人集合为,局中人1的策略可能有在秋季购煤10吨,在秋季购煤15吨,在秋季购煤20吨,局中人2的策略可能有冬季气温较暖,冬季气温正常,冬季气温较冷,局中人1,2的策略集合分别为,.
局中人1,2的收益分别为
,
,
;
,
,
;
,
,
.
收益矩阵为.
于是,得矩阵对策.
的策略解为或,局中人1的最优策略为,且.
故该单位应在秋季购煤20吨,才能使冬季取暖费用最少,且最小费用为元.▍