对策论(Theory of Games)
第1、2讲对策论也称博弈论,是运筹学的一个重要分支。1928年冯·诺意曼(J.von Neumann)等人由于经济问题的启发,研究了一类具有某种特性的博弈问题,这是对策论的最早期的工作。在我国古代的战国时期,“齐王与田忌赛马”就是一个非常典型的对策论的例子。对策论所研究的主要对象是带有斗争性质(或至少含有斗争成分)的现象。由于对策论研究的对象与政治、军事、工业、农业、交通、运输等领域有密切关系,处理问题的方法又有着明显的特色,所以越来越受到人们的注意。
日常生活中,经常看到一些具有相互之间斗争或竞争性质的行为,例如下棋、打牌、体育比赛等,还如战争活动中的双方,都力图选取对自己最为有利的策略,千方百计去战胜对手,在政治方面,国际间的谈判,各种政治力量之间的斗争。各国际集团之间的斗争等无一不具有斗争的性质。经济生活中,各国之间、各公司之间的各种经济谈判,企业为争夺市场而进行的竞争等,举不胜举。
具有竞争或对抗性质的行为,称为对策行为。在这类行为中,参加斗争或竞争的各方各自具有不同的目标和利益,为了达到各自的目标和利益各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案,对策论就是研究对策行为中斗争各方是否存在着最合理的行动方案,以及如何找到这个合理的行动方案的数学理论和方法。
在我国古代,“齐王赛马”就是一个典型的对策论研究的例子。
战国时期,齐王有一天提出要与大将田忌赛马。双方约定:从各自的上中下三个等级的马中选一匹参赛。每匹马均只能参赛一次;每次比赛双方各出一匹马,负者要付给胜者千金。已经知道,在同等级的马中,田忌的马不如齐王的马,而如果田忌的马比齐王的马高一等级,则田忌的马可取胜。当时,田忌手下的一个谋士给田忌出了个主意:每次比赛时先让齐王牵出他要参赛的马,然后用下马对齐王的上马,用中马对齐王的下马,用上马对齐王的中马。比赛结果,田忌,二胜一负,可得千金,由此看来,两人各采取什么样的出马次序,对胜负是至关重要的。
还如日常生活中,儿童或喝酒中不会猜拳的用“石头—剪子—布”游戏也是带有竞争性质的现象,大家都知道游戏的规定:第一,每人每局比赛中,只能在石头、剪子、布三种出法中选一种;第二,在一局比赛中,石头对剪子认为石头赢,剪子对布认为剪子赢,布对石头认为布方赢,如果双方都是同一种,则认为没有输赢。这样一局比赛中,各方是赢是输,不仅与自己所采取的发法(亦称策略)有关,而且与对方所采取的出法有关,下面介绍对策论中的矩阵对策。
§1对策问题的三个基本要求以下称具有对策行为的模型为对策模型或对策。对策模型的种类可以千差万别,但本质上都必须包括如下三个基本要素:
(1)局中人在一个对策行为(或一局对策)中,有权决定自己行动方案的对策参加者称为局中人,通常用I表示局中人的集合,如果有n个局中人,则I={1.2……n},一般要求一个对策中至少要有二个局中人,如在“齐王赛马”例子中,局中人是齐王与田忌。
当然,对策中关于局中人的概念是具有广义性的,局中人除了可以理解为个人外,还可以理解为某一集体。
需要补充的一点是,在对策中总是假定每一个局中人都是理智的,聪明的决策者或竞争者。
即对任一局中人来讲,不存在利用其它局中人决策的失误,来扩大自身利益的可能性或相反。
(2)策略集一局对策中,可供局中人选择的一个实际可行的完整的行动方案称为一个策略,参加对策的每局中人,i∈I都有自己的策略集,一般,每一局中人的策略集中至少应包括两个策略。
在“齐王赛马”例子中,如用(上、中、下)表示以上马、中马、下马依次参赛次序,这是一个完整的行动方案,即为一个策略。可见,局中人齐王与田忌各自都有六个策略:(上、中、下)、(上、下、中)、(中、上、下)、(中、下、上)、(下、中、上)、(下、上、中)。
(3)赢得函数(支付函数)
在一局对策中,当局势给定以后,就用一个数来表示得失(或输赢),显然,这种“得失”或“输赢”是局势的函数,称为支付函数。
例如,Si是i个局中人的一个策略,则n个局中人的策略组
(s1,s2 …sn)
是一个局势,全体局势的集合S可用各局人策略集的笛卡尔积表示,即
s1×s2×…×sn
当局势出现后,对策结果也就确定了,即对任一局势s∈S,局中人I可能得到一个赢得H(s)。显然Hi(s)是局势s的函数,称为第I个局中人的赢得函数(支付函数)
齐王赛马中,局中人集体I={1.2}
齐王的策略集用{α1,α2,α3,α4,α5,α6}
田忌的策略集用{β1,β2,β3,β4,β5,β6}表示这样齐王的任一策略αi 和田忌的任一策略βj,就决定了一个局势Sij,如果α1=(上、中、下)、β1 =(上、中、下)则在局势S11下齐王的赢得值为H1(S11)=3。
田忌的赢得值为H2(S11)=-3 如此等等一般当这三个基本因素确定后,一个对策模型也就给定了,对策论的模型很多,如矩阵对策、连续对策、微分对策、阵地对策、随机对策等。
在众多对策模型中占有重要地位的是二人有限零和对策对策,又称矩阵对策。矩阵对策是到目前为止在理论研究和求解方法方面比较完善的一类对策,而且这类对策的研究思想和理论结果又是研究其它类型对策模型的基础,由于学时的限制,我们只能主要介绍矩阵对策的基本理论和方法。
§2 矩阵对策我们来看几个矩阵对策的例子。
例1、我们称“石头—剪子—布”游戏是一个对策问题,设参加游戏的是甲、乙两人,他们的策略集合都是{石头、剪子、布},也就是说他们在每一局比赛中都只能采取各自策略集合中的一个策略,如果我们再规定,赢得的一方得一分,输的那方得-1分。显然,这个问题是两人有限零和对策,即矩阵对策。
我们可以列出甲、乙两人在一局比赛中的各种局势下的赢输分数。因为这是零和对策,故只需知道甲、乙任何一方在各种局势下的分数,就能够知道对分的情况了。
乙两人在各种局势下的得分情况如下表所示
乙的策略
甲的得分甲的策略
石头
剪子
布
石头剪子布
0
-1
1
1
0
-1
-1
1
0
如把表中数字用矩阵形式表示,则有
0 1 -1
 -1 0 1
1 -1 0
我们称为甲的应得矩阵.
例2、(齐王赛马)
战国时期,齐王要与大将田忌赛马,双方约定:
从自己的上、中、下三个等级的马中各选出一匹进行比赛。每次比赛输者要付给赢者千金。就同等级的马而言,齐王的马都比田忌的强,他们俩人的策略集合都是,{(上、中、下)、(上、下、中)、(中、上、下)、(中、下、上)、(下、上、中)、(下、中、上)}并且可以知道,在每一局比赛结束时,齐王和田忌任何一方赢得的千金数恰是对方输丢的千金数。可见这是两人有限零的对策。即矩阵对策。
下表列出齐王在各种局势下赢得千金的数值,(表中-1表齐王输一千金)。
齐王得千金数 田忌策略
齐王策略
β1
(上、中、下)
β2
(上、下、中)
β3
(中、上、下)
β4
(中、下、上)
β5
(下、中、上)
β6
(下、上、中)
α1(上、中、下)
α2(上、下、中)
α3(中、上、下)
α4(中、下、上)
α5(下、中、上)
α6(下、上、中)
3
1
1
-1
1
1
1
3
-1
1
1
1
1
1
3
1
-1
1
1
1
1
3
1
-1
1
-1
1
1
3
1
-1
1
1
1
1
3
(矩阵)
3 1 1 1 1 -1
1 3 1 1 -1 1
A= 1 -1 3 1 1 1
-1 1 1 3 1 1 称作齐王的赢得矩阵
1 1 -1 1 3 1
1 1 1 -1 1 3
一般情况,设两个局中人分别记为I、II,局中人I有m个策略α1,α2…,αm;局中人II有n个策略β1,β2,…βn。用S1表示局中人I的策略集合,S2表示局中人II的策略集合,即
{α1,α2…,αm}
{β1,β2,…βn}
为了与后面的概念区分开来,称αi为I的纯策略,βj为II的纯策略,对于纯策略构成布局势(αi,βj)称为纯局势。
局中人I的赢得矩阵记为
 ,..,.,
…… 
……………………
 … … 
……………………
……
中的元素αij表示在纯局势(αi,βj)下局中人I得分,也表示在同一局势下,局中人II得分为-αij。
我们把矩阵对策记为
{I,Ⅱ;s1,s2;A}或{s1,s2;A}
矩阵对策模型给定后,各局中人面临的问题是:
如何选择对自己最为有利的纯策略,以谋取最大的赢得(或最少损失),这就是所谓矩阵对策的最优纯策略。
第3、4讲
(一)矩阵对策的最优纯策略。
我们用一个例子来说明最优纯策略的概念。
例3、设有一矩阵对策{s1,s2;A},其中{α1,α2,α3,α4},{β1,β2,β3}
  
-6 1 -8 
3 2 4 
 9 -1 -10 
-3 0 6 
从可看出,局中人I的最大赢得是9,要想得到这个赢得,他就得选择纯策略α3。由于,假定局中人II也是理智的,他考虑到了局中人I打算出α3的心理于是侵准备以β3对付之。使局中人不但得不到9,反而失掉10,局中人I当然也会猜到局中人II的这一心理,故想出α4来对付,使局中人II得不到10而失掉6……,所以,如果双方都不想冒险,都不存在侥幸心理,而是考虑到对方必然会设法使自己的所得最少这一点,就应该从各自可能出现的最不利的情形中选择一种最为有利的情形作为决策的依据,这就是所谓“理智行为”,也是对策双方实际上都能接受的一种隐妥方法。
例3中,局中人I分析出纯策略α1,α2,α3,α4可能带来的最少赢得(矩阵A中每行的最小元素)分别为:
-8,②,-10,-3 {-8,2,-10,-3}=2
在这些最少赢得(最不利的情形)中最好的结果(最有利的情形)是赢得为2。因此,局中人I只要以α2参加对策,无论局中人II取什么样的纯策略,都能保证局中人I的收入不会少于2,而出其它纯策略,其收入都有可能小于2,甚至输给对方。因此,对局中人II来说,各纯策略β1,β2,β3可能带来的对其最不利的结果(矩阵A中每列中最大元素)分别为:
9,②,6 {9,2,6}=2
在这些最不利的结果中,最好的结果(输得最少)也是2,即局中人II只要选择纯策略β2(无论局中人I采取什么纯策略,都能保持自己的支付不会多于2,而采取其它任何策略,都有可能使自己的所失多于2。上面的分析表明,局中人I、II的“理智行为”分别是,选择纯策略α2和β2,这时局中人I的赢得值和局中人II的所失值的绝对值相等(都是2),局中人I是按最大最小原则。局中人II是按最小最大原则选择各自的纯策略,这对双方来说都是一种最为稳妥的行为,因此,α2,β2分别为局中人I、II的最优纯策略。
于是我们引出矩阵对策解的概念:
定义1 设{s1,s2;A}为矩阵对策,其中{α1,α2,…αm},{β1,β2,…βn}。A={aij}m×n若等式

i j j i
成立,记ai*j*,则称V为对策G的值,上式称为成立的纯局势(αi*,βj*)为在纯策略下的解(或平衡局势)。αi*,βj*分别称为局中人I、II的最优纯策略。
由定义1可知,在矩阵对策中两个局中人都采取最优纯策略(如果最优纯策略存在)才是理智的行动。
例3中,对策解为(α2,β2),对策值为=2。
例4,求解矩阵对策{s1,s2;A},其中
-7 1 -8
3 2 4
A= 16 -1 -3
-3 0 5
解:根据矩阵A 有
β1
β2
β3
min aij
α1
α2
α3
α4
-7
3
16
-3
1
2
-1
0
-8
4
-3
5
-8
2
-3
-3
max 
16
2
5

于是 
i j j i
由定义1
=2,的解为(α2,β2),α2,β2分别是局中人I和II的最优纯策略。
从例4可以看出,矩阵的元素a22既是所在行的最小元素,又是所在列的最大元素,即
 i=1,2,3,4; j=1,2,3
将这一事实推广到一般矩阵对策,可得如下定理:
定理1 矩阵对策 {s1、s2;A}在纯策略意义下有解的充要条件是:存在纯局势,使得对一切 i=1,2,…,m,j=1,2,…,n均有

证(略)
为了便于对更为广泛的对策情况进行分析,现引进关于二元函数鞍点的概念:
定义2 设f(x,y)为一个定义在x∈A及y∈B上的实值函数,如果存在x*∈A,y*∈B,使得对一切,x∈A和y∈B,有
(x,y*)≤(x*,y*)≤(x*,y)
则称(x*,y*)为函数的一个鞍点注1.由定义2及定理1可知,矩阵对策G在纯策略意义下有解,且=ai*j*的充要条件是:ai*j*是矩阵A的一个鞍点。在对策论中,矩阵A的鞍点也称为对策的鞍点。
定理1中或 的直观解释是:
如果ai*j*既是矩阵 中的第i*行的最小值。又是A中第j*列的最大值,则ai*j*是对策的值,且(αi*,βj*)就是对策的解,其对策意义是:一个平衡局势(αi*,βj*)应具有这样的性质,当局中人I选取了纯策略αi*后,局中人Ⅱ为了使其所失最小,只有选择纯策略βj*,否则就可能丢的更多;反之,当局中人Ⅱ选取了纯策略βj*后,局中人I为了得到最大的赢得也只能选取纯策略αi*。否则就会赢得更少,双方的竞争在局势(αi*,βj*)下达到了一个平衡状态。
例5,设有矩阵对策 G={s1,s2;A},其中={α1,α2,α3,α4},={β1,β2,β3,β4},
赢得矩阵为
6 5 6 5
 1 4 2 -1
8 5 7 5
0 2 6 2
解:直接在A提供的赢得表上计算,有
    min
 6 5 6 5 
 1 4 2 -1 -1
 8 5 7 5 
 0 2 6 2 0
max 8  7 
于是 max(minaij)=min(maxail)=ai*j*=5
I j j i
其中 i*=1,3 j*=2,4
故 (α1,β2),(α1,β4),(α3,β2),(α3,β4)四个局势都是对策的解,且=5
由此例可知,一般矩阵对策的解可以是不唯一的,当解不唯一时,解之间的关系具有下面两条性质:
性质1 无差别性,即若(αi1,βj1)和(αi2,βj2)是对策G的两个解,则(αi1,βj2)和(αi2,βj2)也是解。
性质2 可交换性,即若(αi1,βj1)和(αi2,βj2)是对策G的两个解,则(αi1,βj2)和(αi2,βj1)也是解。
证明留给读者。这两条性质表明,矩阵对策的值是唯一的证明留给读者,这两条性质表明,矩阵对策的值是唯一的下面举一个实际应用的例子例6,某单位采购员在秋天要决定冬季取暖用煤的贮量问题,已知在正常的冬季气温条件要耗煤15吨,在较暖与较冷的气温条件要消耗10吨和20吨,假定冬季时的煤价随天气寒冷程度而有所变化,在较暖、正常、较冷的气候条件下每吨煤价分别为10元、15元和20元,又设秋季时煤价为每吨10元,在没有关于当年冬季准确的气象预报的条件下,秋季贮煤多少吨,能使单位的支出最少?
解:这一贮量问题,可以看成是一个对策问题,把采购员当作局中人,他有三个策略,在秋天时买10吨、15吨与20吨,分别论为α1、α2、α3。
把大自然看作局中人II(可以当作理智的局中人来处理),大自然(冬季气温)有三种策略,出现较暖的、正常的、与较冷的各季,分别记为β1、β2、β3。
现在把该单位冬季取暖用煤实际费用(即秋季时的购煤费用与冬季不够时再补购的费用总和,作为局中人I的赢得,赢得矩阵如下
(较暖) (正常) (较冷) min
(10顿) -100 -175 -300 -300
α2(15顿) -150 -225 -225 -250
α3(20顿) -200 -200 -200 -200
max -100 -150 -200

i j j i
故对策解为(α3,β3),即秋季贮煤20吨合理,现在,我们会问,是否对于每一个决策G在纯策略中都有解呢?上面所举的例3、4、5、6都是有解的,但也有在纯策略中没有解的对策,如例1的“石头—剪子—布”对策,就没有解,因为从甲的赢得矩阵A中,我们可以算出。
β1 β2 β3 min
α1 0 1 -1 -1
α2 -1 0 1 -1
α3 1 -1 0 -1
max 1 1 1
max (minaij)= -1min(maxaij)=1
i j j i
所以“石头—剪子—布”游戏的对策问题中,在纯策略中无解。
再如例2的,齐王赛马的对策。可以算出
β1 β2 β3 β4 β5 β6 min
α1 3 1 1 1 1 -1 -1
α2 1 3 1 1 -1 1 -1
α3 1 -1 3 1 1 1 -1
α4 -1 1 1 3 1 1 -1
α5 1 1 -1 1 3 1 -1
α6 1 1 1 -1 1 3 -1
max 3 3 3 3 3 3
max(min aij)= -1 min (max aij)=3
i j j i
故知在齐王赛马的对策中,双方都没有最优纯策略。
那么在纯策略意义下,没有解的对策问题,局中人又应如何选取策略参加对策呢?下讲我们来解决这一问题。
第5、6讲
(二)矩阵对策的混合策略由上节(讲)讨论可知,对矩阵对策G={s1,s2;A}来说,局中人I有把握的至少赢得是
=max(min aij)
i j
局中人II有把握的至多损失是
=min( max aij)
j i
一般,局中人I赢得不会多于局中人II的所失值,即总有V1≤V2,当V1=V2时,矩阵对策G存在纯策略意义下的解,且=V1-V2。然而,一般情况不总是如此,实际中出现的复杂情况是V1<V2,这样根据定义1,对策不存在纯策略意义下的解,例1、2都是V1<V2,这又会出现什么情况呢?下面来看一个例子。
例7 给定一个矩阵对策 G={s1,s2;A}
其中 ={α1,α2} ={β1,β2}
3 6
A= 5 4
=max(min )=4 i*=2
i j
=min(max )=5 j*=1
j i
==5>4==
于是,当双方各根据最不利情形中选最有利结果的原则,选择纯策略时,应分别选取α2和β1 此时局中人I将赢得5,比预期赢得v1=4还多,原因就在于局中人II选择了β1,使他的对手多得了原来不该得的赢得,故β1对局中人II来说并不是最优的,因而也会考虑β2,局中人I亦会采取相应的办法,改出α1以使赢得为6,而局中人II又可能仍取策略β1来对付局中人I的策略α1,这样,局中人I出α1或α2的可能性及局中人II出β1或β2的可能性都不能排除,对两个局中人来说,不存在一个双方均可接受的平衡局势,或者说当v1<v2时,矩阵对策G不存在纯策略意义下的解,在这种情况下,一个比较自然且合乎实际的想法是:既然各局中人没有最优纯策略可出,是否可以给出一个选取不同策略的概率分布,如在例7中,局中人I可以制定如下一种策略:分别以概率1/4和3/4选取纯策略α1和α2,这种策略是局中人I的策略集{α1,α2}上的一个概率分布,称之为混合策略,同样,局中人II也可制定这样一种混合策略:分别以概率1/2,1/2选取纯策略β1,β2,下面给出矩阵对策混合策略的严格定义:
定义3 设有矩阵对策{s1,s2;A},其中={α1,α2,…αn},={β1,β2,…βn},(aij)mn,则我们把纯策略集合对应的概率问量
(x1,x2,…,xM)T xi≥0 i=1,2,…,m; 
与 (y1,y2,…yn)T yj≥0 j=1,2,…,n; 
分别称作局中人I、II的混合策略。(x,y)称一个混合局势。
一个混合策略(x1,x2…xm)T可设想成两个当局人多次重复进行对策时,局中人I分别采取纯策略α1,α2…αm的频率。
纯策略也可以看成是混合策略的特殊情况。例如局中人取纯策略αi,则对应于局中人I的混合策略为(0,…0,1,0…0)T所以有时把混合策略简称为策略,(只进行一次对策,混合对策x=(x1,x2,…xm)T可设想成局中人I对各纯策略的偏爱程度)。
如果局中人I选取的策略为局中人II选取的策略为
由于两个局中人分别选取纯策略αi,βj的事这件可以看成是相互独立的(随机事件),所以局势(αi,βj)出现的概率是xiyj,从而局中人I赢得aij的概率是xi,βj,于是数学期望。
(X,Y)
就是局中人I的赢得值
记 

{E(x,y)|X∈,Y∈}
则称={,;}
为的混合扩充设两个局中人仍象前面一样地进行有理智的对策,当局中人I采取混合策略时。他只能希望获得(最不利的情形)。
min (x,y)
因此局中人应选取x∈S1*,使上式取极大值(最不利当中的最有利情形),即局中人I可保证取赢利的期望值不少于
= max ( min  (x,y) )
y∈s2* x∈s1*
同理,局中人Ⅱ可保证自己所失期望值至多是
= min (maxE(x,y))
y∈s2* x∈s1*
注意到上二式v1、v2表达式是有意义的,且是s1*、s2*上的连续函数,仍然有v1≤v2 事实上设 max(minE (x,y))=(x,y*)
x∈s1* y∈s2*
min max(x,y)=(x*,y)
y∈s2* x∈s1*
于是 =E(X,Y*)≤E(X*,Y*)≤E(X,Y)=
定义4,设G*={s1*,s1*;E}是矩阵对策G={s1,s2;A}的混合扩充。如果
max(min E(X,Y))= min(max E(X,Y))
x∈s1* y∈ y∈s2* x∈
记其值为,则称为对策G*的值,使上式成立的混合局势,(X*,Y*)为在混合决策意义下的解,X*、Y*分别称为局中人I和Ⅱ的最优混合决策。
现约定:以下对{s1,s2;A}及其混合扩充{s1*,s2*;E}一般不加区别。通常用{s1,s2;A}表示,当在纯策略意义下,解不存在时,自动认为讨论的是在混合策略意义下的解。相应局中人I的赢得函数为(X.Y),和定理1类似,可以给出矩阵对策在混合策略意义下解存在的鞍点型充要条件。
定理2 矩阵对策{s1,s2;A}在混合策略意义下,有解的充要条件是,存在X*∈S1*,Y*∈S2*使(X*,Y*)的函数(X.Y)的一个鞍点,即对一切X∈S1*,Y∈S2*有
=(X.Y*)≤(X*.Y*)≤(X.Y)
解例7考虑矩阵对策 {s1,s2;A}
3 6 ={α1,α2}
5 4 5 4 ={β1,β2}
解,例7已讨论知G在纯策略意义下,解不存在于是 设 (x1,x2)T为局中人I的混合策略
(y1,y2)T为局中人Ⅱ的混合策略则 {(x1,x2) x1,x2≥0 x1+x2=1(概率和为1) }
={(y1,y2) y1,y2≥0 y1∈y2=1}
局中人I的赢得期望是:


由此式可知当 1/4,1-1/4=3/4时,,就是说,当局中人I以概率1/4 选取纯策略,以概率 3/4 选取纯策略时他的赢得至少是 9/2,同样局中人Ⅱ只有取, =1-1/2=1/2,才能保证他的输出不会多于9/2。
取  
则  
即有 
故  和  分别为局中人
I和Ⅱ的最优策略,对策值(局中人I的赢得期望值) 
一般矩阵对策在纯策略意义下的解,往往是不存在的,但是可以证明,般矩阵在混合策略意义下的解,却总是存在的,这一系列定理我们略表不讲了,但在一个构造性的证明中,引出了矩阵对策的基本方法—线性规划方法。
这是给出一个矩阵对策优超纯策略的定义:
定义5 设有矩阵对策{s1,s2;A}
其中 ={α1,α2,…αm} ={β1,β2,…,βn}
如果对一切j=1,2,…,n都有

即矩阵的第i行元均不少于第 k 行的对应元,则称局中人I的纯策略优超于αk0
同样,若对一切i=1,2,…,m,都有

即矩阵A的第o列元均不少于第jo列的对应元,则称局中人II的纯策略βjo优超于β
定理10,设{s1,s2;A}为矩阵对策其中 {α1,α2,…,αm} {β1,β2,…,βn}
 如果纯策略α1被其余纯策略α2,α3,…αm中之所优超,由G可得到一个新的纯阵对策:
其中 
{α2,α3,…,αm}
=(αij )  i=2,…,m,j=1,2,…n
于是有
(1) 
(2)中局中人II的最优策略就是其在中的最优策略:
(3)若是中局中人I的最优策略,则是其在G中的最优策略。
例9.设赢得矩阵为
2 2 0 3 0
5 0 2 5 9
A= 7 3 9 5 9
4 6 8 7 5.5
6 0 8 8 3
求解这个矩阵对策。
解:由于第4行优于第1行、第3行优于第2行,故可划在第1行和第2行,得到新的赢得矩阵。
7 3 9 5 9
 4 6 8 7 5.5
6 0 8 8 3
由于A1第1列优超于第3列,第2列优超于第4列
1/3×(第1列)+2/3×(第2列)优超于第5列,因此去掉第3、4、5列,得到
7 3
 4 6
6 0
这时第1行又优超于第3行,故从A2中划在第3行,得到
7 3
 4 6
对于,易知无鞍点存在,应用定理4,求解不等式组
7x3+4x4≥v 7y1+3y2≤v
3x3+6x4≥v 4y1+6y2≤v
x3+x4=1 y1+y2=1
x3,x4≥0 y1,y≥0
首先考虑满足
7x3+4x4=v 7y1+3y2=v
3x3+6x4=v 4y1+6y2=v
x3+x4=1 y1+y2=1
的非负解,求得解为  
 
于是原矩阵对策的一个解就是:



第7、8讲
(三)矩阵对策的解法
(1)2×2对策的公式法所谓2×2对策是指局中人I的赢得矩阵为2×2阶的,即
 
  
如果A有鞍点,则很快可求出各局中人的最优纯策略;
如果A没有鞍点,则可以证明各局中人最优混合策略中的 均大于零。于是由定理6可知,为求最优混合策略可求下列方程组:
a11x1+a21x2=v
(I) a11x1+a22x2=v
x1+x2=1
a11x1+a12y2=v
(II) a21y1+a22y2=v
y1+y2=1
当矩阵不存在鞍点时,可以证明上面等式组(I)(II)一定有严格非负解
,其中
a22-a21
 (a11+a22)-(a12+a21)
a11-a12

(a11+a22)-(a12+a21)
a22-a12

(a11+a22)-(a12+21)
a11-a21

(a11+a22)-(a12+a21)
a11a22-a12a21

(a11+a22)-(a12+a21)
例10 求解矩阵对策,G={s1,s2;A},其中
1 3
 4 2
解 易知没有鞍点,由上通解公式,计算得到最优解为
 
对策值为
(2) 2×n或m×2对策的图解法。
3×n或m×3
此法对m,n均大于3的矩阵对策不适用。
例11,考虑矩阵对策 {s1,s2;A},其中
{α1,α2} {β1,β2,β3}
2 3 11
 7 5 2
解:这是2xn对策,设局中人I的混合策略为
 x∈[0,1]
过数轴上坐标为0和1两点作两条垂线I-I,II-II
垂线上纵坐标值分别表示局中人I采取纯策略α1和α2时局中人II采取各种纯策略时的赢得值。
当局中人I选择每一策略
时他的最少可能的收入为局中人II选择β1、β2、β3时所确定的第3条直线
β1:2x+7(1-x)=
β2:3x+5(1-x)=
β3:11x+2(1-x)=
在x处的坐标中之最小者,即如折线B1、BB2、B3所示,所以对局中人I来说。它的最优选择就是确定x。使他的收入尽可能的多,按最小最大原则选择x=OA而AB即为对策值,为求出点x和对策值VG,可联立过B点的两条线段β2和β3所确定的方程:


解得  
所以局中人Ⅱ的最优策略为
=( 3/11,8/11 )
此外,从图上还可以看出,局中人II的最优混合策略只由β2、β3组成(事实上,若记 =(y1*,y2*,y3*)T为局中人II的最优混合策略(则由E(X*,1)=2×3/11 +7×8/11 =62/11 >11/49 =,E(x*,2)=E(x*,3)=VG
据定理6可知必有,可知
 
 

所以局中人II的最优混合策略为 
(3)线性方程组法据定理,求解矩阵对策解(x*,y*)的问题,在价于求解下面两个方程组的问题:(假设最优策略中的均不为零)
=v j=1,2,…,n

=v i=1,2,…,m

这种试算过程是无固定规则可循的,所以实际应用中具有一定的局限性。
例12 求解矩阵对策——“齐王赛马”
解 已知齐王赛马的赢得矩阵为
3 1 1 1 1 -1
1 3 1 1 -1 1
1 -1 3 1 1 1
-1 1 1 3 1 1
1 1 -1 1 3 1
1 1 1 -1 1 3
易知,A没有鞍点,即对齐王和田忌来说都不存在最优纯策略。
设齐王和田忌的最优混合策略为
X*=(x1*,x2*,x3*,x4*,x5*,x6*)T
T*=(y1*,y2*,y3*,y4*,y5*,y6*)T
从矩阵A的元素来看,每个局中个选取每个纯策略的可能性都是存在的,故可事先假定xi*≥0,yj*≥0,i=1,2,…6,j=1,2,…,6
于是求解线性分程组
3x1+x2+x3-x4+x5+x6=v
x1+3x2-x3+x4+x5+x6=v
x1+x3+3x3+x4-x5+x6=v
x1+x2+x3+3x4+x5-x6=v
x1-x2+x3+x4+3x5+x6=v
x1+x2+x3+x4+x5+3x6=v
x1+x2+x3+x4+x5+x6=1

3y1+y2+y3+y4+y5-y6=v
y1+3y2+y3+y4-y5+y6=v
y1-y2+3y3+y4+y5+y6=v
-y1+y2+y3+3y4+y5+y6=v
y1+y2-y3+y4+3y5+y6=v
y1+y2+y3-y4+y5+3y6=v
y1+y2+y3+y4+y5+y6=1
得到 xi=1/6 i=1,2,…,6
yj=1/6 j=1,2,…,6
V=1
故齐王和田忌的最优混合策略为:
=(,,,,,,,)
=( 1/6,1/6,1/6,1/6,1/6,1/6 )
对策的值齐王的期望赢得为
这与我们的设想相符,即双方都以1/6的概率选取每个纯策略或者说每个纯策略的被选取的机会应是均等的,则总的结局应该是:齐王有5/6的机会赢田忌,赢得的期望值是1千金。但是齐王在每出一匹马前将自己的选择告诉了对方,这实际上等于公开了自己的策略,如齐王选出马次序号(上、中、下),则田忌根据谋士的取建立便以(下、上、中)对立,结果田忌反而可得千金。因此,在矩阵对策不存在鞍点时,竞争的双方在开马前,均应对自己的策略(实际上是纯策略)加以保密,否则不保密的一方是要吃亏的。
(4)线性规划解法对于任意矩阵对策{s1,s2;A} 其中
{α1,α2,…,αm}
{β1,β2,…,βn}
(aij)mxn
我们考虑线性规划问题(P)和(D):

 j=1,2,…,n
(P) 
 i=1,2,…,m

 i=1,2,…,m
(D) 
yi≥0 j=1,2,…,n
此二线性规划问题有下述性质:
对任意矩阵对策 G={s1,s2;A}。我们规划(P)和(D)有解(X*,W*)和(Y*,V*),并且X*=(x1*,…,xm*)T,是局中I的最优策略,Y*=(y1*,y2*,…yn*)T,是局中人II的最优策略,VG*=E(X*,Y*)=V*=W*。
例13 以例1的“石头—剪子—布”对策为例,在那里设
S1={α1,α2,α3}={石头、剪子、布}
S2={β1,β2,β3}={石头、剪子、布}
甲的赢得矩阵为
0 1 -1
A= -1 0 0
1 -1 0
我们已讲过,此问题在纯策略意义下无解,故我们在混合扩充意义下来求解它。
解 解线性规划问题(P),(D)
 
-x2+x3≥W y2 -y3≤V
x1 -x3≥W -y1 +y3≤V
(P) -x1+x2 ≥W (D y1-y2 ≤V
x1+x2+x3=1 y1+y2+y3=1
x1,x2,x3≥0 y1,y2,y3≥0
利用单纯形方法,求得对策问题公解为
=( 1/3,1/3,1/3 ) (1/3,1/3,1/3)

即:如果在多局比赛中,甲、乙两人都以 1/3 的率出石头,1/3 的频率出剪子,1/3 的频率出布,则比赛结果是甲、乙两人持平,无输赢。
至此,我们介绍了一些求解矩阵对策的分法,在求一个矩阵对策时,应首先判断其是否具有鞍点,当鞍点不存在时利用优超原则和定理提供的方法将原对策的赢得矩阵尽量地化简,然后再利用本讲介绍的方法去求解。
后记在对策论中,我们主要介绍的是两人有限零和对策,但实际上对策过程中各局中人的赢得往往是非零和的,例如两个球队的比赛,特别是某些经济过程中的对策模型,一般都是非零和的,因为许多经济活动过程都是创造新价值的,因此对非零和对策的研究显得十分重要了。
一般,两人有限非零和对策可用{s1,s2;(A,B)}表示,其中S1和S2分别为局中人I和II的策略集,矩阵
为局中人I的赢得矩阵,矩阵,为局中人II的赢得矩阵,=(aij,bij)mxn,一般,A+B≠O,这类对策亦称为双矩阵对策,可见矩阵对策(A+B=O)是双矩阵对策的一种特例。
定义,设{s1,s2(A,B)}为双矩阵对策,∈,∈,如果对任给∈,∈有
≤
≤
则称(,)为对矩阵对策G的平衡局势。
已经证明:任一双矩阵对策的平衡局势都是存在的,但至今尚未得到较一般的求解方法,矩阵对策的某些性质不能平行的推广到双矩阵对策,这是求解双矩阵对策的困难之一,对于,2×2双矩阵对策,已得到了令人较满意的结果。
有意报考运筹学研究生的同学,可在自己的研究领域里进行有益的探索。
决策分析(Decision Analysis)
第1、2讲引言决策是人们在政治、经济、技术和日常生活中普遍存在的一种选择方案的行为。决策就是决定的意思。决策的正确与否会给人们、企业或国家带来受益或损失。新产品研制中的决策,一个错误,可能造成的损失是几万、几百万或更多,国际市场的竞争活动中,一个错误的决策可能造成几亿甚至几十亿的损失。甚至可能导致企业破产。因此说在一切失误中,决策失误是最大的失误,一着不慎,损失重大。
所谓决策,是指在现代社会和经济发展过程中,针对某些宏观或微观的问题按予定目标,采用一定的科学理论、方法和手段,从所有可供选择的方案中,找出最满意的一个方案,进行实施直至目标的实现。
关于决策的重要性,诺贝尔奖金获得者西蒙有一句名言“管理就是决策”这就是说,管理的核心是决策。决策是一种选择行为,最简单的选择是回答是与否。较为复杂的决策是从多种方案中选一。
研究决策的学向,并将现代科学技术成就应用于决策,称之为决策科学,包括:决策心理学,决策的数量化方法,决策的评价及决策的支持体系。决策自动化等。这里主要从运筹学中的定量分析方法的角度予以介绍。
§1 决策的分类
(1)按性质的重要性分类:战略决策(战略计划)、执行决策、(运行控制)、策略决策(管理控制)、三级战略决策是涉及某组织发展和生存有关的全局性、长远性问题的决策,如厂址的选择,新产品开发方向,新市场开发,原料供应地的选择等。
策略决策是为完成战略决策所规定的目的而进行的决策,如对一个企业来讲,产品规格的选择,工艺方案和设备的选择,厂区和车间内工艺路线的布置等。
执行决策,是根据策略决策的要求对执行方案的选择,如公司中产品合格标准的选择,日常生产调度的决策。
(2)按决策的结构分类:程序决策(有章可循)和非程序决策(凭经验直觉)。
决策结构不同,解决问题方式也不同解决问题方式
程序决策
非程序决策
传统方式
习惯,标准规程
直观判断,创造概测,选拔人材
现代方式
运筹学,管理信息系统
培训决策者,人工智能,专家系统
(3)按定量和定性分类:定量决策,定性决策
(4)按决策环境分类:确定型、风险型、不确定型
(5)按决策过程的连续性分类:单项决策、序贯决策
§2 决策过程构造人们决策行为的模型有两种方法:一是面向决策结果的方法,二是面向决策过程的方法。
确定 收集 提出 方案
决策目标 信息 方案 优造可见,任何一个决策都有一个过程和程序,决非决策者灵机一动拍板就行。决策过程包括预决策—→决策—→决策后三个互相依懒的阶段。
任何决策问题都有以下要素构成决策模型:
(1)决策者,可以是个人,委员会或某组织,一般指领导者。
(2)可供选择的方案,行动或策略。
(3)准则是衡量选择方案,包括目的、目标、属性、正确性的标准,有单一准则和多准则。
(4)事件是指不为决策者所控制的客观存在的将发生的状态。
(5)每一事件的发生将发产生某种结果,如获得收益或损失。
(6)决策者的价值观,如决策者对货币额或不同风险程度的主观价值观念。
确定型的决策,是指不包含有随机因素的决策问题,每个决策都会得到一个唯一的事先可知的结果。
从决策的观点来看,前面讲的数学规划方法等都是确定型的决策问题,这里讨论的决策问题,都是具有不确定因素和有风险的决策。
§3 不确定型的决策所谓不确定型的决策是指决策者对环境情况一无所知,这时决策者是根据自己的主观倾向进行决策,由决策者的主观态度不同基本可分为四种准则,它们是,悲观主义准则、乐观主义准则、等可能性准则、最小机会准则,以下用例子分别说明之。
例1 某厂是按批生产某产品,并按批销售,每件产品的成本是30元,批发价格是每件35元,若每月生产的产品当月销售不完,则每件损失1元,工厂每投产一批是10件,最大生产能力是40件,决策者可选择的生产方案为0、10、20、30、40五种,假设决策者对其产品的需求情况一无所知,试问这时决策者应如何决策?
解:这个问题可用决策矩阵来描述,决策者可选择的行动方案有五种。这是他的策略集合,记作{S i},i=1,2…,5,经分析他可断定,将发生五种销售情况:即销量为0、10、20、30、40,但不知他们发生的概率,这就是事件集合,记作{Ej},j=1,2,…,5。
每个“策略—事件”对都可以计算出相应的收益值或损失值,如当选择月产量为20件时,而销出量为10件,这时收益额为:
10×(35-30)-1×(20-10)=40(元)
可以一一计算出“策略—事件”对应的收益值或损失值,记作aij,将这些数据汇总在下矩阵中


事 件
0
10
20
30
40
0
策 10
20
略 30
40
0
-10
-20
-30
-40
0
50
40
30
20
0
50
100
90
80
0
50
100
150
140
0
50
100
150
200
这就是决策矩阵,根据决策矩阵中元素所示的含义不同,可称为收益矩阵、损失矩阵、风险矩阵、后悔值矩阵等等。
下面讨论决策者是如何应用决策准则进行决策的。
(1)悲观主义(max min)决策准则。
悲观主义决策准则亦称保守主义决策准则,当决策者面临着各种事件的发生概率不清时,决策者考虑可能由于决策错误而造成重大经济损失。由于自己的经济实力比较脆弱,他在处理问题时就较谨慎。他分析最坏的各种可能结果,从中选择最好者,以它对应的策略为决策策略。用符号表示为max(min)决策准则,在收益矩阵中先从各策略所对应的可能发生的“策略—事件”对的结果中选出最小值,将它们列于表的最右列,再从此列的数值中选出最大者,以它对应的策略为决策者应选的决策策略,见下表


事 件
min
0
10
20
30
40
0
策 10
20
略 30
40
0
-10
-20
-30
-40
0
50
40
30
20
0
50
100
90
80
0
50
100
150
140
0
50
100
150
200
0
-10
-20
-30
-40
根据 max( min)决策准则有:
max(0,-10,-20,-30,-40)=0
它对应的策略为。即为决策者应选的策略,在这里是“什么也不产生”,这结论,似乎荒谬,但在实际中表示“先看一看,以后再做决定”,上述计算公式表示为:max (min aij)
(2)乐观主义(max,max)决策准则 I j
持乐观主义(max,max)决策准则的决策者对待风险的态度与悲观主义者不同,当它面临情况不明的策略问题时,他决不放弃任何一个可获得最好结果的机会,以争取好中之好的乐观态度来选择他的决策策略。决策者在分析收益矩阵各策略的“策略—事件”对的结果中选最大者,记在表的最右列。再从该到数值中选择最大者,以它对应的策略为决策策略,见下表


事 件

0
10
20
30
40
0
策 10
20
略 30
40
0
-10
-20
-30
-40
0
50
40
30
20
0
50
100
90
80
0
50
100
150
140
0
50
100
150
200
0
50
100
150
200←
根据 max( max)决策,准则有:
max(0,50,100,150,200)=200
它对应的策略为,用公式表示为:
→max(max aij)
(3)等可能性(Laplace)准则等可能性准则是19世纪数学家 Laplace提出的,他认为:当一人面临着某事件集合,在没有什么确切理由来说明这一事件比那一事件有更多发生机会时,只能认为各事件发生的机会是均等的,即每一事件发生的概率都是1/ 事件数,决策者计算各决策的收益期望值,然后在所有这些期望值中选最大者,以它对应的策略为决策策略,见下表:


事 件
(Si)=
∑ paij
0
10
20
30
40
0
策 10
20
略 30
40
0
-10
-20
-30
-40
0
50
40
30
20
0
50
100
90
80
0
50
100
150
140
0
50
100
150
200
0
38=1/5(-10+50+…+50)
64
78
80  max
然后按
max{(Si)}
决定决策策略
第3、4讲不确定型的决策(续)
(4)最小机会损失准则最小机会损失决策准则亦移最小遗憾值决策准则或Savage决策准则,首先将收益矩阵中各元素变换为每一“策略—事件”对的机会损失值(遗憾值、后悔值),其含义是:当某一事件发生后,由于决策者没有选用收益最大的决策,而形成的损失值,若发生k事件。各策略的收益为Aik2,i=1,2,3,4,5,其中最大者为
=max(aik2)
这时各策略的机会损失值为
={max(aik)-aik},i=1,2,3,4,5
计算结果见下表


事 件
max
0
10
20
30
40
0
策 10
20
略 30
40
0
-10
-20
-30
-40
50
0
10
20
30
100
50
0
10
20
150
100
50
0
10
200
150
100
50
0
200
150
100
50
40←
从所有最大损失值中选取最小者,它对应的策略为决策策略,用公式表示为:
min(max aij)
i j
本例的决策策略为
min(200,150,100,50,40)=40
在产品废品率时,应用本决策准则比较方便。
(5)折衷主义准则当用min(max)决策准则或max( max)决策准则来处理问题时,有的决策者认为这样太极端了,于是提出把这两种决策准则予以综合,令α为乐观系数且0≤α≤1,并用以下关系式表示

,分别表示第i个策略可能得到的最大收益值与最小收益值,设α=1/3,将计算得值记在下表右端.


事 件

0
10
20
30
40
0
策 10
20
略 30
40
0
-10
-20
-30
-40
0
50
40
30
20
0
50
100
90
80
0
50
100
150
140
0
50
100
150
200
0
10
20
30
40
然后选择 max{}
i
本例的决策策略为:
max(0,10,20,30,40)=40
在不确性决策中是因人、因地、因时选择决策准则的,但在实际中当决策者面临不确定性决策问题时,它首先是获取有关事件发生的信息,使不确定性决策问题转化为风险决策,风险决策将是讨论的重点。
§4 风险决策风险决策是指决策者对客观情况不甚了解,但对将发生事件的概率是已知的,决策者往往通过调查,根据过去的经验或主观估计等途径获得这些概率,在风险决策中一般采用期望值作为决策准则,常用的有最大期望收益决策准则和最小机会损失决策准则。
(1)最大期望收益决策准则()
xpecxed oneaYy alue
决策矩阵的各元素代表“策略—事件”对的收益值,各事件发生的概率为,各计算各策略的期望收益值:
pjaij,i=1,2,…,n
然后从这些期望收益值中,选取最大者,它对应的策略为决策应选策略,即
max ∑pjaij
i j
以例1的数据计算,列下表



事 件

0
10
20
30
40
0.1
0.2
0.4
0.2
0.1
0
策 10
20
略 30
40
0
-10
-20
-30
-40
0
50
40
30
20
0
50
100
90
80
0
50
100
150
140
0
50
100
150
200
0
44
76
84
80
这时
max(0,44,76,84,80)=84( 
即选择策略=30
决策准则适用于一次决策多次重复进行生产的情况,所以它是平均意义下的最大收益。
(2)最大机会损失决策准则()
xpected oytunity oss
矩阵的各元素代表“策略—事件”对的机会损失值,各事件发生的概率为pj,先计算各策略的期望损失值
∑pjaij i=1,2,…,n
j
然后从这些期望损失值中选取最小者,它对应的策略是决策者所选策略,即
min(∑pjaij)
i
表上运算与上述相似
(3)与决策准则的关系。
从本质上讲与决策准则是一样的,它们之间的关系是:
设aij为决策矩阵的收益值,因为当发生的事件的所需量等于所选策略的生产量时,收益值最大,即在收益矩阵的对角线上的值都是其所在列中的最大者,于是机会损失矩阵可通过以下求得,见下表

 
E1
E2……
En
P1
P2……
Pn
S1
S2

Sn
a11-a11
a11-a21

a11- an1
a21-a12
a22-a22

a22-an2
ann-a1n
ann-a2n

ann-ann
第i策略的机会损失:
=P1(a11-a1i)+p2(a22-a2i)+…+Pn(amn-ani)
=p1a11+p2a22+…+pnann-(p1a1i+p2a2i+…+pnani)
=K-(p1a1i+p2a2i+…+pnani)
=K-EMVi
故当为最大时,EOL便为最小,所以在决策时用这两个决策准则所得结果是相同的。
(4)全情报的价值()
当决策者耗费了一定经费进行调研,获得了各事件发生概率的信号,应采取“随机应变”的战术,这时所得的期望收益称为全情报的期望收益,记作 ,这收益应当大于至少等于最大期望收益。即
≥,则

称为对全情报的价值,这就说明获取情报的费用不能越过值,否则就没有增加收入。
实际应用时考虑费用构成很复杂,这里仅说明全情报价值的概念和其意义。
(5)主观概率风险决策时决策者要估计各事件出现的概率,而许多决策问题的概率不能通过随机试验去确定,根本无法进行重复试验。事估计某企业的倒闭可能性,只能由决策者根据他对这事件的了解去确定,这样确定的概率反映了决策者对事件出现的信念程度称为主观概率,客观概率者成为概率如月重量,容积、硬度等一样,是研究对象的物理属性,而主观概率者则认为概率是人们对现象知识有了现状的测度,而不是现象本身的测度(实变函数论中有勒贝格测度的“核心”性质是非负性及可数加性,哥尔莫哥罗夫公理系的提出使测度论成为概率论和数理统计严格的理论基础,高等代数里讲过群、环、域,而定义在环和半域上的集函数P(以集类为定义域的函数),如满足(φ)=0非负性O≤(A)<+∞,可加性(可数性、则称为环和半域上的一个测度)
因此不是研究对象的物理属性。主观概率论者不是主观臆造事件发生的概率,而依赖于对事件作周密的观察,去获得事前信息,事前信息愈丰富则确定的主观概率就愈准确,主观概率论者并不否认实践是第一性的观点,所以主观概率是进行决策的依据,确定主观概率时,一般采用专家估计法。
①直接估计法直接估计法是要求参加估计者直接提出概率的估计方法。
例如推荐三名本科生考研时,请五位任课教师估计他们得第一的概率,若各任课教师作出如下的估计,以下表:
教师代号
权数
学生1
学生2
学生3
∑
1
0.6
0.6
0.6
0.1
2
0.7
0.4
0.5
0.1
3
0.9
0.5
0.3
0.2
4
0.7
0.6
0.3
0.1
5
0.8
0.2
0.5
0.3
归一化后
1.67
0.43
1.59
0.41
0.62
0.16
3.88
1
由表的最未一行得到学生1的概率是0.43,他是最高者。
第5、6讲 风险决策(续)
主观概率的估计法
①间接估计法参加估计者通过排队或相互比较等间接途径给出概率的估计方法例如 估计五个球队(Ai,i=1、2、3、4、5)比赛谁得第1的问题,请十名专家作出估计,每位都给出一个优胜顺序的排列名单,排队名单汇总在下表。
名 次
专家号
βi
评 定 者
1
2
3
4
5
权 数wj
1
A2
A5
A1
A3
A4
0.7
2
A3
A1
A5
A4
A2
0.8
3
A5
A3
A2
A1
A4
0.6
4
A1
A2
A5
A4
A3
0.7
5
A5
A2
A1
A3
A4
0.9
6
A2
A5
A3
A1
A4
0.8
7
A5
A1
A3
A2
A4
0.7
8
A5
A2
A4
A1
A3
0.9
9
A2
A1
A5
A4
A3
0.7
10
A5
A2
A3
A1
A4
0.8
分别从表中查得每队被排名次的次数,如A1所处各名次的意见为:
qj 次数nj 评定权数WI
1 1
2 3 W4=0.7
3 2 W2=0.8 W7 =0.7 W9=0.7
4 4 W1=0.7 W5=0.9
5 0 W10 =0.8 W3 =0.6 W6=0.8 W8=0.9
然后计算加权平均数
(A1)=1+ W4+2(W2+ W7+ Wa)+3(W1+ W5)+4(W10+ W3+ W6 +W8) =3
∑Wi
采取同样方法得到
(A2)=2.26,(A3)=3.43,(A4)=4.56,(A4)=1.78
这就可以按加权平均数给出各队的估计名次,即

下面再将各队的估计名次转换成概率,这时需假设各队按估计名次出现的概率是等可能的。
(→1):(→2):(→3):(→4):(→5)
=1:1:1:1:1
因所有事件发生的概率和为1,即

j
于是各队按估计名次出现的主观概率为
(A5→1)=1/5; (A2→2)=1/5
(A1→3)=1/5 ; (A3→4)=1/5
(A4→5)=1/5
当然,决策者还有可根据了解的情况,作其它的假设,这样就能得到另外的结果。
(6)修正概率的方法 ——贝叶斯公式的应用。
(先复习概率论知识:
设n个事件A1,A2,…,An互不相容(两两相不相容,AB=Φ A、B不可能同时发生),P(Ai)>0,i=1.2,…n事件B满足BCA1+A2+……+ An
则 B)= P(Ai)P(B|Ai)
这叫全概率公式:
是在计算较复杂事件的概率时用,是加法,乘法方式的综合运用和推广,直观意义是:其一事件B的发生有各种可能的原因Ai(i=1,2,…n),如果B是由原因Ai所引起的,则B发生的概率是P(AiB),每Ai发生都可能导致B发生,相应的概率是P(B| Ai),故B发生的概率是——先验概率。
∑P(AiB)=∑P(AI)P(B|AI)
与全概率公式解决问题相反,已知事件B已发生,求某一事件Ai发生的概率,即求条件概率
p(A i |B)P(B|A i)
P(Ai|B)= i=1,2,…,n
∑P(Ai)P(B∣Ai )
这叫贝叶斯公式(下Bages、英),去世后的1763年发表。它是,观察到事件B已发生的条件下,寻找导致B发生的生个原因Ai 的概率,也叫验后概率。
上面提到决策者常常碰到的问题是没有把握充分的信息,于是决策者通过调查及做试验途径去获得更多的更确切的信息,以便掌握各事件发生的概率,这可以利用贝叶斯公式来实现,它体现了最大限度地利用现有信息,并加以连续观察和重新估计,其步骤为:
①先由过去的经验或专家估计获得将发生事件的事前 (先验)概率。
②根据调查或试验计算得到条件概率,使用贝叶斯公式
P(Ai∣B)P(B∣ Ai)
P(Ai |B)= i=1,2.…,n
∑ p(Aj )P(B∣ Aj)
 
计算出各事件的事后(后验)概率。
例2 某钻井大队在某地区进行石油勘察,主观做计算地区有石油的概率多P(O)=0.5;无油的概率P(D)=1- 0.5=0.5,为了提高钻探的效果,先作地震试验,根据积累的资料得知:凡有油地区作试验,结果亦好的概率为P(F∣0)=0.9;作试验结果不好的概率为P(U∣0)=0.1;
凡无油地区作试验结果好的概率为P(F∣D)=0.2;作试验结果不好的概率为P(U∣D)=0.8;
问在该地区作试验后,有油与无油的概率各是多少:
解 先计算做地震试验好与不好的概率;
做地震试验好的概率(全概公式)
P(F)=P(O)P(F∣O )+P(D)P(F∣D )
=0.5×0.9+0.5×0.2=0.55
做地震试验不好的概率
P(U)=P( U∣ O)+P(D) P(U∣ 0)
0.5×0.1+0.5×0.8=0.45
利用贝叶斯公式计算各事件的事后(后验)概率,做地震试验好的条件下,有油的概率
P(O)P(F∣0) 0.45
P (O∣F)= = = 9/11
P(F) 0.55
做地震试验好的条件下,无油的概率
P(D)P(F∣D) 0.45
P(D∣F)= = =9/11
P(F) 0.55
做地震试验不好的条件下,有油的概率
P(O)P(U∣O) 0.05
P(O∣U)= = = 1/9
P(U) 0.45
做地震试验不好的条件下,无油的概率:
P(D)P(U| D) 0.40
P(D∣U) = = = 8/9
P( U ) 0.45
以上计算也可表在数形(枝)图上进行事前概率 条件概率 联合概率 无条件概率 事后概率
有油试验结果好 — P(O|F)=0.45 P(O | F)=9/11
有油 P(F| 0)=0.9 P (F)=0.55
P(O)=0.5 有油试验结果不好—P(O|U) =0.05 P(D|F)=1/11 P(U| D)=0.2
无油试验结果好
P(F|D)=0.2 P(D| F) =0.1 P(U)=0.45 P (O | U)=1/9
无油 无油试验结果不好 P (D | U)=8/9
P(D)=0.5 P(U|D)=0.8 P(D| U)=0.40
例3 某厂生产电子元件。每批次品率的概率分布如下 表:该厂进行100%的检验,现抽样20件,次品一件,试修订事前概率。
次品率p
0.02
0.05
0.10
0.15
0.20
事前概率P(p)
0.4
0.3
0.15
0.10
0.05
解计算列下表次品率 P
事前概率 PO(p)
条件概率P(x=1/20/p)
联合概率p(x=1 p)
事后概率`P(P|X=1)
(1)
(2)
(3)
(4)
(5)
0.20
0.4
0.2725
0.10900
0.39030
0.05
0.3
0.3774
0.11319
0.40531
0.10
0.15
0.2701
0.04052
0.14509
0.15
0.10
0.1368
0.01368
0.04899
0.20
0.05
0.0577
0.00288
0.01031
合计
1.00
P(X=1)=0.27927
1.0000
表中第(3)列的数字表示在次品率为P母体中抽20个检验,有1个次品的概率,这概率可由以下计算得到。因为产品抽样检验的次品率是服从二项分布。

这可用计算或 查表得到:
P (x=1/20,0.02)=0.2725
P(x=1/20,0.05)=0.3774
……………………………
表中第(4)列数多是按(4)=(2)×(3)求得的。
然后求:
P(x=1)=∑P(x=1∧pi ) =0.27927
事后概率按,
(4)
(5) = 求得
0.27927
第7、8讲 §5 效用理论在决策中的应用。
1、效用及效用曲线效用概念首先是由贝努利(D,Berneulli)提出的,他认为人们对钱财的真实价值的考虑,与他的钱财拥有量有对数关系,如右图 。
这就是贝努力的货币效用函数,经济管理学家将效用作为指标,用来衡量人们对某些事物的主观价值,态度、偏爱倾向等等。
例如在风险情况下进行决策,决策者对风险的态度是不同的,用效用这指标来量化决策者对待风险的态度是不同的,最大收益期望值的决策在风险识第中得到广泛应用,但在有些情况下,决策者并不按这个原则去做。比较典型的例子:一是保险业,二是购买各种奖券、彩票。
保险业中,尽管按期望值得到的受灾损失比所付的保险金额要小的多。或购买奖券时,按期资值计算的得奖金额,要小于购买奖券的支付,但仍然有很多人愿意付出相对小的支出,为了避免可能出现的很大损失,或有机会得到相当大一笔奖金。可见实际取货币价值大小不能完全用来衡量一个人的意愿倾向,由于具体的情况和每个人所处地位的差异对一定钱数的吸引力及愿冒风险的态度是不同的,为了具体进行衡量,在决策分析中引进了效用值这个概念。
可以给每个决策者测定他的对待风险的态度的效用曲线(函数)。效用值是一个相对的指标值,一般可规定:凡对决策者最爱好、最倾向、最愿意的事物 (事件)的效用值赋予1而最不爱好的事物赋予0,也可以用其它数值范围如(100—0),这如同水的冰点可以用摄氏0度或华氏32F表示,但效用无量纲指标。通过效用这个指标可将某些难于量化的有质差别的事物(事件)给予量化。如某人面临多种方案的选择工作时,要考虑地点、工作性质、单位福利等等。可将要考虑的因素都折合为效用值,得到各方案的综合效用值,然后选择效用值最大的方案,这就是最大效用值决策准则。
在风险情况下,只作一次决策时,再用最大期望值决策准则,那就不合理了,如下表是各方案按最大收益期望值的计算结果:
事件,概率 方案




(最大期收益)
0.35
0.35
0.15
0.15


418.3
418.3
-60
-60
275

650
-100
650
-100
275

483
211.3
480
-267
275
表中三个方案的EMV都相同,显然这三个方案并不是等价的,另一方面EMV给出的是平均意义下的最大,当决策后只实现一次时,用EMV*决策准则就不恰当了,这时可用最大效用值决策准则来解决这个矛盾。
2、效用曲线的确定确定效用曲线的方法有两种,一种是直接提问法,另一种是对比提问法。
①直接提问法是向决策者提出一系列问题,要求决策者进行主观衡量,并作出回答,例如向某决策者提问:“今年你企业利100万,你是满意的,那么获利多少,你会加倍满意?”
若决策者回答200万。这样不断提问与回答,可绘制出决策者获利效用曲线,显然这种提问与回答是十分含糊的,很难确切,所以应用较少。
②对比提问法,设决策者面临两种可选方案A1、A2,A1表示他无可任何风险得到一笔金额x2 ;A2表示他可以概率p得到一笔金额X1或以概率(1—p)损失金额X3;且X1> x2> X3设U(X1)表示金额X1的效用值,若在某条件下,这决策者认为A1、A2两方案等价时,可表示为
PU(x1)+(l-P)U(X3) = U(x2) (1)
确切地讲,这决策者认为x2的效用值高价于x1、x3的效用期望值。于是可用对比提问法来三测定决策者的风险效用曲线。从(1)式可见,其中的x1 x2 x3,P四个变量,若其中任意三个是已知的,向决策者提问第四个变量应取何值?并请决策者作出主观判断第四个变量应取的值是多少,提问的方式大致有三种:
1、每次固定x1 x2 x3的值,改变p问决策者:“p取何值时,认为A1与A2等价?”
2、每次固定p x1,x3的值,改变x2问决策者:“x2取何值时,r认为A1与A2等价?”。
3、每次固定P,x2,x3(或x1)的值,改变 x1(或x3)的值,问决策者:x1(或x3)取何值时,认为,A1与A2等价?
我们一般是用改进的提法,即每次取p=0.5固定x1,x3利用
5u(x1) +0.5u( x3 )=u(x2)
改变x2三次提三问,确定三点,即可给出决策者的效用曲线,下面用数字说明:
设x1=1000000 x3 =500000
取U(1000000) =1 U(-5000) =0
0.5U(x1)+0.5U(x3)=U(X2) (2)
提第1问:“你认为X2取何值时,(2)式成立?” 若回答为:在X2=-250000时,那么U(-250000)=0.5,那X2的效用值为0.5,在坐标系中给出第一个点。
利用
0.5U(x1)+0.5(x2)=U(xˊ2) (3)
提第二问:“你认为x2取何值时上式(3)式成立?”若回答出在x2=14000时,那么
U(750000)=0.5×1+0.5×0.5=0.75
即xˊ的效用值为0.75在坐标中给出第二个点。
利用
0.5U(x2)+0.5U(x3) =U(x") (4)
提第3问:“你认为x取何值时,(4)式成立?”若回答为在x" = -420000时,那么
U(-420000) = 0.5×0.5+0.5×0=0.25
即x"取效用值为0.25,在坐标中给出第三点,这就可以绘出这决策者对风险的效用曲线。
从以上向决策者提问及回答的情况来看,决策者会选择不同的x,x,x的值,使(2)、(3)、(4)式成立,这就能得到不同形状的效用曲线,并表示了不同决策者对待风险的不同态度,一般可分为:保守型、中间型、冒险型三种,其对应的曲线见右图。
具有中间型效用曲线的决策者,他认为他的收入金额的增长与效用值的增长成正比关系,具有保守型效用曲线的决策者,他认为他对损失金额愈多愈敏感,相反地对收入的增加比较迟纯,即他不愿承受损失的风险;
具有冒险型效用曲线的决策者,他认为他对损失金额比较迟纯,相反地对收入的增加比较敏感,即他可以承受损失的风险,这是三种典型,其一决策者可能兼有三种类型,如下图:
3、效用曲线的拟合当用计算机时需用解析式来表示效用曲线,并对决策者测得的
数进据进行拟合,常用的关系式有以下六种:
(1) 线性函数
U (x) = c1+a1(x-c2)
(2) 指数函数
U(x) = c1+a1 (1-ea2( x c2))
(3) 双指数函数
U(x)=C1+a1?(2-ea2(x-c2))
(4) 指数加线性函数
U(x)= c1+a1(1-ea2(x-c2))+a3(x-c2)
(5) 幂函数
U(x) =a1+c1 a2 [c1(x-a3)]a4
(6)对数函数
U(x)=c1+a1 Iog (c3 X-c2)
§ 6 灵敏度分析
1、灵敏度分析的意义:
通常在决策摸型中自然状态的概率和收益值由估或预测得到,不可能十分正确,此外,实际情况也不断变化。现在需分析为决策所用的数据可在多少范围内变动原最优决策方案有效,进行这种分析称为灵敏度分析,下面举例说明:
例4 假设有外表多完全相同的木盒100只,将其分为两组,一组内装白球有70盒,另一组内装黑球有30盒,现从这100盒中任取一盒,请你猜,如这盒内装的是白球,猜对了得500分,猜错了罚200分,为使期望得分最多选那一方案,有关数据列于下表,
概率
方案
自然状态
白
黑
0.7
0.3
猜白
500
-200
猜黑
-150
1000
解:先画出决策树,“猜白”有的期值为
0.7×500+0.3×(-200)=290
“猜黑”的期望值为
0.7×(-150)+0.3×1000=195
经比较可知“猜白”方案是最优,现假定出现白球的概率从0.7变到0.8,这时各方案的期望值为:
“猜白”的期望值为
0.8×500+0.2(-200)=360
“猜黑”的期望值为
0.8×(-150)+0.2×1000=80
可见猜白方案仍是最优。现假定出现白球的概率从0.7变为0.6,这时各方案的期望值为:
0.6×500+0.4×(-200)=220
“猜黑”的期望值为
0.6×(-150)+0.4×1000=310
现在的最优方案不是猜白,而是猜黑了。
可见由于各自然状态发生的概率的变化,可引起最优方案的改变,那么转折点如何确定?
2、转折概率设p为出现白球的概率,则(1-p)为出现黑球的概率,当这两个方案的期望值相等时,即
p×500+(1-p)(-200)=p(-150)+(1-p)×100
求得 p=0.65,称它为斩折概率。
即当 p>0.65,猜白是最优方案。
P3表示为当P<0.65时,猜黑是最优方案。
P= a12-a22
a12-a22-a21-a11
若这些数据在某允许范围内变动,而最优方案保持不变,这方案就是比较稳定的。
反之,这数据在允许范围内稍加变动,则最优方案就有变化,这方案就是不稳定的,由此可以得出那些非常敏感的变量,那些不太敏感的变量以及最优方案不变条件下,这些变量允许变化的范围。
备课于2003年春节前夕腊月二十六日,2004年1月10日修改打印.