2006-3-7 1
东北财经大学 数量经济系刘德海 ldhai2001@163.com
博弈论前沿专题
( Advances in Game Theory)
2006-3-7 2
第二章 预备知识( 2)
上一章主要内容:
第一节 博弈论学科的产生、发展和演变过程第二节 博弈论与,理性,概念;
本章主要内容:
第一节 博弈论的一些重要概念:经验主义,均衡,合作,信息第二节 博弈的基本要素;
第三节 博弈模型的三种正规表述。
2006-3-7 3
复习,作为一种数学分析方法,传统博弈对参与者的,理性,要求非常苛刻
目标理性 (主观理性 ):参与者追求自身利益的最大化 (经济学理性的内涵 )
过程理性(具有理性的能力),给定参与者对外部环境的信念后最大化自己的报酬,即,前后一致的,做出选择,可以分为两个推理步骤:
认知理性( cognitive) —— 参与者对相关环境可获得的信息与形成的信念之间的一致性,即参与者具有对相关环境形成信念的能力;
具体要求:参与者了解博弈的结构和规则、以及理性的,共同知识,
(递推归纳法的基础)、作为不完全信息博弈均衡求解基础的贝叶斯理性(参与者对不确定性事物具有事前概率分布的判断,在动态过程中进行更新的贝叶斯决策)。
工具理性( instrumental) —— 参与者对外部给定的机遇与固定的偏好之间的一致性,即参与者具有从既定的信念推导出采取相应策略的能力。
具体要求:参与者具有计算推理、预见、记忆、分析判断的能力(例:
求解动态博弈均衡的递推归纳法),不会犯错误(例:颤抖手均衡要求犯错误时仍具有稳健性)等。
信念 采取相应策略 最大化目标相关环境 认知理性 工具理性 目标理性第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2006-3-7 4
理论分析 实验检验理性主义均衡分析传统博弈演化主义均衡分析机制设计理论、信息经济学实验博弈演化博弈非合作博弈合作博弈不完全或不完美信息博弈完全完美信息博弈博弈论的理论体系,
经验主义均衡合作信息第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2006-3-7 5
博弈论与经验主义,
博弈论并不是仅用于示意性说明的智力游戏,而是来源于社会现实中的矛盾冲突与合作。
—— 博弈模型需要经验证明:或者实验室进行;或者实地检验 。
(1) 实验博弈:在可控的实验条件下进行有关策略相互作用的经验性研究。
(2) 通过分析经济社会的历史数据分析,可以对博弈模型的,理性,
行为加以检验 —— 即计量革命。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
1 经验主义
2006-3-7 6
博弈中均衡(纳什均衡)的不同理解,
观点 1:参与者们采取的最佳应对策略一致同意达到的结果,其具有,可自我实施,( self-inforcement) 的特征( 即:独自偏离均衡策略不会带来更好结果 )。该观点认为,均衡是一种结果。
观点 2:博弈均衡,当且仅当每一个参与者对所有参与者的行为有正确的预期。该观点认为,均衡是一种信念。
观点 3:该观点认为,均衡是一种规则。
因此,在理性假设下,三种观点是等价的。
博弈的规则 信念 结果认知理性 工具理性第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 7
均衡的存在性,纳什定理( 1950,利用不动点定理证明)
均衡的唯一性,非常不幸,经常面临的一个苦恼就是多个均衡同时存在(世界的多样性)
非合作博弈理论的主要研究问题:多重均衡的精练问题
选择 ( selection) 与精练 ( perfection)
选择问题:在非合作博弈中,一些威胁和承诺是不可信的
( 三马食槽故事,96军演威胁 ),如何选择那些能够实现一致预期的均衡结果;
精练问题:对于博弈存在多重均衡的情况,如何判断哪些均衡更有可能实现。 多重均衡的意义第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 8
[资料夹 ]三马食槽 ——承诺的可信性:
明帝托孤托给曹爽与司马懿。曹爽党羽李胜要到荆州任刺史,临行前去拜望司马懿。司马懿假装病重,耳聋并且胡涂,曹爽等从此不再防备司马懿。魏帝曹芳离开洛阳去祭扫魏明帝的坟墓高平陵,曹爽兄弟均跟从。司马懿乘机上奏永宁太后,请废曹爽兄弟,史称,高平陵事变,。
司马懿自己率太尉等勒兵出迎天子,驻扎在洛水浮桥。桓范劝曹爽挟持皇帝到许昌去,发文书征调天下兵马勤王。曹爽优柔寡断,夜里遣人见司马懿,探听动静。司马懿乘机劝诱,朝廷只是免他的官职罢了,
并以洛水为誓。顾及城中家小,欲信其言。桓范等人援引古今,百般劝谏无效。曹爽请皇帝下诏免去自己官职,随皇帝进入京城。
曹爽兄弟一回府,即被司马懿派兵包围。不久,司马懿以谋反的罪名,杀曹爽及其党羽,并灭三族。后阮籍,天下无英雄,使竖子成名,
思考:曹真的理性选择?(勤王)
2006-3-7 9
96军演威胁 —— 威胁的不可信
96李登辉访美,抛出,两国论,。在台湾当局,总统,大选前大陆举行军事演习,预定落弹点台湾东部,美国出动航母战斗群。
由于大陆高层军事将领叛国提前泄露情报,李登辉指出导弹是空弹壳,叫嚣不怕。大选支持率反而上升。
大陆放弃武力犯台,台湾以不独立回应 —— 承诺不可信这是典型的动态不一致的例子。因为给定大陆已经同意不武力防独的情况下,台湾没有必要再保持不独立的承诺,到那时,
最佳的策略是独立。所以 "大陆先放弃武力犯台的威胁,台湾再以不独立回应大陆的善意 " 不可能是一个子博弈均衡 ( Subgame
perfect equilibrium).
[资料夹 ]台海局势中威胁与承诺的可信性:
2006-3-7 10
经济学,报酬递增产生多重均衡
多重均衡产生,路径依赖,现象,,锁定( lock-in),在低效率的均衡:其中的一种均衡状态比另一种均衡状态有着更高的劳动分工和生产率水平,但由于生产者之间的,协调失灵,,经济无法由低分工水平均衡跃迁到高分工水平均衡。
举例:计算机键盘沿袭打字机,为防止机械机构纠缠故意设计别扭;
现代类人猿锁定在进化死胡同中。
比较优势理论的局限性:
单一均衡,可以发挥比较优势,尽快收敛到工业化国家均衡点;
对于多重均衡,农业技术运用上可能导致,传统农业技术陷阱,;国际分工当中可能导致,贸易陷阱,,被锁定在国际产业分工链的低端。
[资料夹 ]多重均衡的意义:
S
D
Q
P供给 S增加,同时价格 P下降
2006-3-7 11
博弈均衡是如何形成的??
Nash在其博士论文,Non-cooperative games”( 1950年)
给出 Nash均衡的两种 解释,
一种是,理性主义,的、内省的、演绎的传统解说 —— 均衡是通过理性的参与者进行严密的逻辑演绎推理得到的,
对参与者的理性能力有较高要求(传统博弈分析,顿悟 )。
一种是 学习的、归纳的、演化的解说 —— 当时没有很好的方法构建数学模型(国际上 90年代兴起演化博弈理论,渐悟 )。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 12
[资料夹 ]佛教禅宗六祖慧能,顿悟,,
六祖慧能原在一家小旅馆里打杂,有一天在给客人收拾东西的时候听客人在念,金刚经,。六祖慧能听罢便觉其中奥义博大,于是决心出家为僧。他投在五祖弘忍门下,每日做些杂务。
有一日,五祖要门下众人将自己领悟的佛法写做一偈,大弟子神秀在门前徘徊许久,又返回居所。后来在墙上写的是,身若菩提树,心如明镜台。时时勤拂拭,莫使惹尘埃(渐悟) 。弟子们看见了十分钦佩。五祖看了,却说他还没有领悟佛法的真谛。众弟子自然不明白其中的道理。
又一日,有游客入寺。慧能请求游客帮忙,游客问他你为什么不自己写呢?慧能说我不识得字。游客笑他说:你连字都不识还能领悟佛法?慧能说我能否领悟,你看偈语便知道了。游客笑道:那好,你若能领悟,别忘记引我入法门啊!
于是,慧能说,那游客写道,菩提本无树,明镜亦非台。本来无一物,
何处惹尘埃?(顿悟) 众人看后大惊,才知慧能果然领悟了佛法真谛!就这样,五祖将衣钵传与六祖慧能。而神秀则是北派佛教一代宗师!
2006-3-7 13
理性主义的均衡实现,
均衡形成的,理性主义,的传统博弈观点,认为均衡形成纯粹是一个高度理性的智力游戏,并在瞬间实现了均衡。
局限性举例:
分钱博弈:两个参与者对 100美圆协商进行分配,如果无法达成一致意见,则都得不到。理论分析结果:在[ 0,100]之间的连续集合上有无限多均衡。实际结果将是 50,50—— 因为这一均衡具有符合公平的社会原则特点,成为吸引注意力的焦点。
Schelling( 1960)提出焦点理论( focal-point) —— 多重均衡中考虑公平、效率、对等原则等社会和文化习俗因素。该观点是在个体
,冰冷的,理性选择中(经济学规范),引入了社会准则的伦理道德(社会学规范)。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 14
演化主义的均衡实现,
真实世界中,有限理性的人们,行为具有模仿、经验主义的、惯例特征,从错误和尝试中进行学习。( 80年代改革,摸石头过河,)
由于实际中会发生重复,时间弥补了较弱的理性 。
在学习过程中,有限理性的参与者在观察对手的行动后,根据一些实用主义的修正原则(各种动态调整过程),修改关于对手未来采取行动的预期。
一个有意思的结果:如果动态的过程是收敛的,则将趋向于传统博弈的均衡点。即使参与者行为是有限理性的,群体行为的演化最终也学会达到理性均衡。(真实世界里的市场经济图景)
根据进化论的均衡观点,传统博弈对多重均衡进行精练没有太大意义,因为真实世界中的均衡来自于历史演化的初始条件和演化过程中引起突变的一些随机事件。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 15
Maynard Smith(1982)等研究鹰鸽博弈等生物种群竞争现象,构造了基本分析框架。
每个参与者代表一个种群,随机组合匹配,进行预先规定好收益的要素博弈;
少部分参与者的策略产生 突变 (试错法);大部分参与者根据不同的学习规则进行模仿,其中最有效率的参与者经 选择 过程得以大量复制;(物演天择,适者生存)
演化主义基于群体行为的均衡 判断标准:当群体发生少部分突变策略产生入侵,造成不同策略的分布构成发生一个很小的变化后,
仍能维持原稳定构成。
演化博弈理论成为 90年代以来博弈论最为活跃的一个领域之一,
并应用在经济社会体制的起源和多样性、互补性演化研究中。
[资料夹 ]演化主义均衡形成观的生物学起源:
2006-3-7 16
非合作博弈,除了 规则允许的协议 以外,参与者之间无法达成有约束力的协议,作出的威胁、许诺是无法强制实施的,因此参与者只能根据,可察觉到的自我利益( perceived self-interest),决策,
例子:一次性囚徒困境博弈中攻守同盟的瓦解
在非合作博弈中,仍可以出现内生的合作行为:
1 无名氏定理揭示出,无限次重复博弈可摆脱,囚徒困境,;
2 考虑声誉效应后,可以在有限次重复博弈中实现合作。
P NP
-1,-
1
-8,0
0,-8-5,-5P
NP
2
1
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
3 合作
2006-3-7 17
合作博弈,参与者之间的协议是有完全约束力并能够实施的,
即外生给定的。
合作博弈研究的主要问题:如何实现有约束力的协议的参与者之间无冲突的串谋?
—— 不同于非合作博弈主要分析个人行为,合作博弈分析的是参与者形成什么样的联盟?如何瓜分合作的收益?
—— 如果合作能够带来收益,但不是所有参与者都接受分配方案,
则假定存在强制实施协议的外在机制(制度、仲裁者等)
举例,我国汽车行业的串谋第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
3 合作
2006-3-7 18
思考:人类进入信息社会,什么是信息?
1948年,信息论奠基人之一香农( Shanon,美国数学家)第一个以信息公式的方式定义,信息是熵的减少,,这里用到的,熵,是不确定性的度量。实际上该定义是说,信息是,用来消除不确定的东西,。
控制论的奠基人维纳( Wiener) 1948年指出:,信息就是信息,不是物质,也不是能量,。专门指出了信息是区别于物质与能量的第三类资源。
信息是用语言、文字、数字、符号、图象、声音、表情、状态等方式传递的内容。强调了信息的知识性。
有人强调信息的作用性,发展香农定义,提出信息是具有新内容与新知识的消息。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
4 信息
2006-3-7 19
博弈论中的两种信息特性,
完美信息 ( perfective information) —— 参与者在选择行动时了解以前的历史,并且双方没有同时行动。
举例:玩跳棋时的信息?喝酒猜拳的信息?
完备信息( complete information) —— 参与者对博弈的信息是否完全了解,又称完全信息。 当各个要素(参与者、规则、得益、
策略)都是共同知识时,为完备信息。
根据博弈的信息特征,传统博弈理论分为:
完全完美信息博弈、
不完全或不完美信息博弈第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
4 信息
2006-3-7 20
信息问题在传统博弈理论中占据着核心地位,
由于私人信息的存在造成不完全信息,
(庄子,子非鱼安知鱼之乐?,,子非吾,安知吾不知鱼之乐?,)
产生了参与者的道德风险行为和逆向选择行为,导致效率损失( 人民公社后期低效率 )。
为此,要设计一种激励相容的机制(博弈规则),机制设计理论
—— 信息经济学第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
4 信息
2006-3-7 21
初期 50,60年代合作化高效率数据,,傻子,雷锋原因:共产党人的革命理想主义和群众的热情,不符合经济学的
,自私,人性假设。(当今河南的南街村)
后期 70年代人民公社低效率由于集体行动中私人信息的存在,造成考核时信息不完全,计时制道德风险行为:走后门,偷懒;
逆向选择行为:出工高的反而是笨手,前苏联发起反酗酒运动
80年代大包干的激励机制分散劳动,交足国家的,剩下都是自己的。
农民的劳动和自身利益直接挂钩,激励相容问题:分散劳动与农业机械化大生产的矛盾、水利设施等建设、勤劳能致富吗?
[资料夹 ]人民公社后期低效率 ——一个信息问题的例子:
2006-3-7 22
参与者( player):
可以是个体( 包括自然人和企业、国家、国家集团等团体 )、群体(演化博弈);包括自然(此时为决策问题);
自然:指决定外生的随机变量的机制。为分析方便引入,自然作为虚拟参与人没有自己的支付和目标函数(即所有结果对它是无差异的);
参与人决策的后果依赖于自然的选择。在不完全信息博弈中,自然选择参与人的类型。
第二章 预备知识( 2) 第二节 博弈的基本要素
2006-3-7 23
行动( action),
参与者在某个时点的决策变量,用 Ai表示第 i个参与人的一个特定行动;
行动的顺序:行动的顺序对于博弈的结果是非常重要的,事实上,不同的行动顺序意味着不同的博弈。
一般假设参与者的行动空间和行动顺序是所有参与者的共同知识,
但是对参与者采用某一具体行动的信息可以是不完备的。
静态博弈 ( static game),又称 同时行动博弈 ( simultaneous-move game):
参与者们同时行动(或秘密行动),且独立行动(参与者做出决策前无法获得其他人的决策信息)。
思考,此时的信息特征?(不完美信息)
动态博弈 ( dynamic game),又称序贯行动博弈:不同参与者具有先后行动顺序,并能够为对方观察到。
第二章 预备知识( 2) 第二节 博弈的基本要素
2006-3-7 24
策略( strategy),
参与者在给定信息集的情况下选择行动的规则,它规定参与者在什么情况下选择什么行动,是参与者的“相机行动方案”,包括参与者采取行动的完整描述。
对于静态博弈,策略等于行动;对于动态博弈,策略针对不同情况由一系列不同阶段分别采取的行动构成。
对策略的理解:博弈过程中,参与者在可行策略集合中选择策略。
策略可以理解成指示代理人进行博弈的一系列指令,其必须是毫无遗漏的;代理人按照指令参与博弈,本身没有任何主观的直觉判断意图。 相当于计算机按照既定程序运行,从而简化了行为的分析
思考:理性限制使得参与者的思考过程机械化,从而实现数学建模第二章 预备知识( 2) 第二节 博弈的基本要素
2006-3-7 25
收益(或者支付,payoff),
参与者采取某一策略所对应的结果;
假定支付代表了参与者对博弈结果的主观评价,此时等价于效用 (utility),
直接反映了参与者对风险的评价
( 决策理论中期望效用函数的凹凸程度代表对风险态度,凹的表示风险规避的 ) ;
如果实验博弈等研究参与者对风险态度时,支付不同于效用。
规则( rule),
外生规则:博弈进行前预先规定好的;
内生规则:参与者对博弈均衡的预期形成的信念。
博弈的外部环境( environoment),
外部环境的改变将影响博弈均衡第二章 预备知识( 2) 第二节 博弈的基本要素
2006-3-7 26
对弈:
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述仙人对弈图(局部放大图,作者:陈玉圃)
2006-3-7 27
“策略式”模型 (Shapley,1973采用这一术语,最初采用,标准式,)
策略式表述模型是把每一可行的策略向量 与支付向量 相联系的函数( X1,…,X n; u1,…,u n)。
,策略式”表述模型必须说明:
( 1)参与者集合 {A,B};
( 2)每个参与者的可行策略集合 {N,NP};
( 3)每个参与者采取某一可行的行动组合时,所获得的支付。
注:策略式表述不涉及行动顺序。
,1,,iix X i n
1( ( ),,( ) )nu x u x
-8,-8 0,-10
-10,0 -1,-1
坦白 P
抵赖 NP
坦白 P 抵赖 NP囚徒 A
囚徒 B
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 28
“策略式”模型的几点说明:
混合策略:参与者随机地在所有可行策略集中选出要采取的策略。
其中,p j 为参与者选择纯策略 x j的概率:
不确定性来源:一个偶然行动介入博弈;参与者对策略进行随机化。
参与者不确定决策的支付函数为 Von·Neumann-Morgenstern函数
(VNM),参与者最大化“期望”支付。
策略式表述模型用于双人有限博弈比较方便(表示为双矩阵,by-
matrix);
策略式模型中所有参与者一次性选择策略,仅适用于同时行动博弈
(即静态博弈问题)。
1 1(,,),0,1,mm j jjp p p p p其 中第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 29
动态决策(序贯决策)问题:
决策树是由决策点、事件点和结果构成的树图;采用逆序解法;决策准则常为最大收益期望值准则 EMV。
决策问题是博弈的一种特例,其中一方是自然参与者。
钻井 出油 0.55
800
- 150
无油 0.45 0
转让开采权 160
1 1
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 30
“扩展式”模型 (Von Neumann和 O,Morgenstern,1944)
扩展式表述模型准确描述了参与者的行动顺序和参与者采取行动时所拥有的信息。
,扩展式”表述模型必须说明:
( 1)参与者集合;
( 2)该轮到谁采取行动;
( 3)在他(她)的每个信息集中,可以选择什么;
( 4)在他(她)做出决策时,知道什么;
( 5)每个参与者采取某一可行的行动组合时,所获得的支付。
思考,同时行动博弈是否可采用扩展式表述模型?
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 31
扩展式博弈用博弈树( game tree)表示,
结点:包括初始结点、决策结点 (作出决策 )、终结点 (对应参与者报酬 );若结点是有限的,则称有限次博弈。
枝:从一个决策结到它的直接后续结的连线,每一个枝代表参与者的一个行动选择;
信息集:一个参与者无法作出区分的最大决策点集合(如图,囚徒 B
无法判断 A的行动,因此其信息集为虚线连接)。
例:扩展式囚徒困境
B
(-8,-8) (0,-10) (-10,0) (-1,-1)
A
坦白 抵赖坦白 抵赖 坦白 抵赖第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 32
“扩展式”模型的几点说明:
当事件中有偶然因素介入时,在初始结点引入,自然,参与者,因为偶然因素等价于,自然,在参与人之前行动但参与人不能观测到。
完美回忆 ( perfect recall)
—— 通俗描述:当轮到某个参与者行动时,从不会忘记过去知道什么,做了些什么。
—— 标准描述:在博弈树的每个信息集处,每个参与者知道以前的所有信息集,和在那些信息集所做的决策
完美信息,参与者在选择行动时了解以前的历史(即完美回忆),并且没有同时行动。如果博弈树的所有信息都是单结的,该博弈称为完美信息博弈。
思考:玩扑克牌不分伙时的信息?
(不知道对手的信息集,不完备的,但完美信息)
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 33
练习 1:“扩展式”表述模型的一个例子
双人博弈中,每人都有两种行动,参与者 1先行。
a 参与者 2知道 1的行动; b 参与者 2不知道 1的行动; c 有偶然行动,且 2不知道 1的行动
1
2
1
2
N
1
2
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 34
练习 2:
剪刀 -石头 -布,双人博弈中,同时行动,
每人有三个策略 (石头 Rock、剪刀 Scissors、布 Cloths)
思考,如何用扩展式表述模型? 0,01,-1-1,1
-1,10,01,-1
1,-1-1,10,0
C
R
C
R S
S
1
2
C
1
2
R C S
RRR C CS S S
(0,0)(-1,1)(1,-1)(1,-1)(0,0)(-1,1)(-1,1)(1,-1)(0,0)
R C S
RRR C S S S
2
1
(0,0)(-1,1)(1,-1)(1,-1)(0,0)(-1,1)(-1,1)(1,-1)(0,0)
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 35
分赃:
问题:有哪些人参与分食?
共享的蛋糕有多大?
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 36
“联盟式”模型
合作博弈中参与者可以达成有约束力的协议并且形成联盟,此时采用策略式或者扩展式表述无法描述出合作的得益。
参与者集合 N,n个参与者博弈中,形成的联盟 S的数目即为参与者集合 N= {1,…,n}的非空子集数目 S= 2n- 1(包括大联盟),S? N。
特征函数 v( S)( characteristic function):不管联盟 S以外的参与者行动如何,联盟所能保证给成员带来的全部可转换效用,又称为联盟的保证水平。 记为 v( S),B→R,即从所有联盟的集合 B到实数集 R
的一个函数,S∈ B 。
参与者的可转换效用( transferable utility)是指每一联盟 S都可以获得总效用,其可以在联盟者之间分配。
可转换效用的联盟式博弈(或特征函数式博弈):( N,v) 。
其中,N为参与者集合,v( ·)为特征函数。
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 37
“联盟式,模型 的几点说明:
特征函数 v( ·) 是研究联盟博弈的基础,确定特征函数即是一个建立合作博弈模型的过程。
可转换效用的合作博弈,相当于假设参与者的拟线性效用( quasi-
linear utility),
即支付可以分解为货币和其他物品,而货币是线性的(满足可加性)。
不可转换效用的合作博弈,其特征函数不是一个总的效用值,而是分配给每个参与者的一个向量函数,v( S)=( v1(S),…,v n(S))
0 1 0 1(,,,) (,,)kkU x x x x u x x
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 38
可转换效用的,联盟式,表述模型的两个例子
投票规则假定投票人可以达成有约束力的协议,投票规则可用一个可转换效用的合作博弈来模型化。
采用 0- 1规范化后,v( N)= 1,N为所有参与者的大联盟;
如果每个参与者 i都投自己一票,v( {i})= 0;
如果形成某一联盟 S? N,根据简单多数的投票程序,如果联盟 S的得票数超过半数,则获胜,v( S)= 1;否则,v( S)= 0。
市场交易市场上 3个交易者,卖主 1和买主 2,3(分别出价 9元,10元)。要价是 x
元,买主 2的获利( 9- x)元,买主 3的获利( 10- x)元。
对于联盟 {1,2}和 {1,3},v{1,2}= 9,v{1,3}= 10;
对于单个交易者或两个买主,无法成交,v {i}= v{2,3} =0;
对于三人一起交易,将卖给卖主 3,v{1,2,3}= 10
石油输出国组织( OPEC)
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 39
1960年 9月,由伊朗、伊拉克、科威特、沙特阿拉伯和委内瑞拉的代表在巴格达开会,决定联合起来共同对付西方石油公司,维护石油收入,五国宣告成立 石油输出国组织 (Organization of Petroleum
Exporting Countries -- OPEC),简称“欧佩克” 。之后成员国增加到 11个,即 阿尔及利亚,阿拉伯联合酋长国,卡塔尔,利比亚,尼日利亚 和 印度尼西亚,欧佩克发展成主要石油生产国的国际性石油组织。总部设在维也纳。
石油输出国组织宗旨是协调和统一各成员国的石油政策。为使石油生产者与消费者的利益都得到保证,欧佩克实行石油生产配额制。
为防止石油价格飚升,可依据市场形势增加其石油产量;为阻止石油价格下滑,可依据市场形势减少其石油产量。
2003年该组织成员石油总储量为 1191.125亿吨,约占世界石油储量的 69%,其中排在前三位的成员分别是沙特阿拉伯 (355.342亿吨 )、伊朗 (172.329亿吨 )和伊拉克 (157.534亿吨 )。 2003年该组织成员原油产量为 13.218亿吨,约占世界原油产量的 39%,前三位的成员分别是沙特阿拉伯 (4.215亿吨 )、伊朗 (1.865亿吨 )和尼日利亚 (1.06亿吨 )。
[资料夹 ]石油输出国组织(欧佩克):
2006-3-7 40
对于非合作博弈 的表述形式;
——“扩展式”模型 ( extensive-form)
——“策略式(标准式),模型 ( strategic-form),策略式,仅适用静态博弈
对于合作博弈 的表述 形式
——“联盟式”模型 ( coalitional-form)
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
-8,-8 0,-10
-10,0 -1,-1
例 2:扩展式囚徒困境
B
(-8,-8)(0,-10)(-10,0) (-1,-1)
A
坦白 抵赖坦白 抵赖 坦白 抵赖囚徒 B
坦白抵赖坦白 抵赖囚徒 A
例 1:策略式囚徒困境
2006-3-7 41
本章总结:
博弈论各个分支的构成;
形成博弈均衡的两种解释 —— 理性主义和演化主义;
博弈的基本要素 —— 参与者,行动,策略,支付,规则,环境;
三种博弈表述模型适用范围 —— 策略式;扩展式;联盟式 ;
几个重要的概念:
( 1)选择与精炼;
( 2)同时行动博弈和序贯行动博弈;
( 3)完美回忆和完美信息;
( 4)参与者决策不确定的来源;
( 5)合作博弈的特征函数;
课后阅读 (一些相关资料可从网络课程中下载):
我国医药价格过高的行业串谋行为。
东北财经大学 数量经济系刘德海 ldhai2001@163.com
博弈论前沿专题
( Advances in Game Theory)
2006-3-7 2
第二章 预备知识( 2)
上一章主要内容:
第一节 博弈论学科的产生、发展和演变过程第二节 博弈论与,理性,概念;
本章主要内容:
第一节 博弈论的一些重要概念:经验主义,均衡,合作,信息第二节 博弈的基本要素;
第三节 博弈模型的三种正规表述。
2006-3-7 3
复习,作为一种数学分析方法,传统博弈对参与者的,理性,要求非常苛刻
目标理性 (主观理性 ):参与者追求自身利益的最大化 (经济学理性的内涵 )
过程理性(具有理性的能力),给定参与者对外部环境的信念后最大化自己的报酬,即,前后一致的,做出选择,可以分为两个推理步骤:
认知理性( cognitive) —— 参与者对相关环境可获得的信息与形成的信念之间的一致性,即参与者具有对相关环境形成信念的能力;
具体要求:参与者了解博弈的结构和规则、以及理性的,共同知识,
(递推归纳法的基础)、作为不完全信息博弈均衡求解基础的贝叶斯理性(参与者对不确定性事物具有事前概率分布的判断,在动态过程中进行更新的贝叶斯决策)。
工具理性( instrumental) —— 参与者对外部给定的机遇与固定的偏好之间的一致性,即参与者具有从既定的信念推导出采取相应策略的能力。
具体要求:参与者具有计算推理、预见、记忆、分析判断的能力(例:
求解动态博弈均衡的递推归纳法),不会犯错误(例:颤抖手均衡要求犯错误时仍具有稳健性)等。
信念 采取相应策略 最大化目标相关环境 认知理性 工具理性 目标理性第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2006-3-7 4
理论分析 实验检验理性主义均衡分析传统博弈演化主义均衡分析机制设计理论、信息经济学实验博弈演化博弈非合作博弈合作博弈不完全或不完美信息博弈完全完美信息博弈博弈论的理论体系,
经验主义均衡合作信息第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2006-3-7 5
博弈论与经验主义,
博弈论并不是仅用于示意性说明的智力游戏,而是来源于社会现实中的矛盾冲突与合作。
—— 博弈模型需要经验证明:或者实验室进行;或者实地检验 。
(1) 实验博弈:在可控的实验条件下进行有关策略相互作用的经验性研究。
(2) 通过分析经济社会的历史数据分析,可以对博弈模型的,理性,
行为加以检验 —— 即计量革命。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
1 经验主义
2006-3-7 6
博弈中均衡(纳什均衡)的不同理解,
观点 1:参与者们采取的最佳应对策略一致同意达到的结果,其具有,可自我实施,( self-inforcement) 的特征( 即:独自偏离均衡策略不会带来更好结果 )。该观点认为,均衡是一种结果。
观点 2:博弈均衡,当且仅当每一个参与者对所有参与者的行为有正确的预期。该观点认为,均衡是一种信念。
观点 3:该观点认为,均衡是一种规则。
因此,在理性假设下,三种观点是等价的。
博弈的规则 信念 结果认知理性 工具理性第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 7
均衡的存在性,纳什定理( 1950,利用不动点定理证明)
均衡的唯一性,非常不幸,经常面临的一个苦恼就是多个均衡同时存在(世界的多样性)
非合作博弈理论的主要研究问题:多重均衡的精练问题
选择 ( selection) 与精练 ( perfection)
选择问题:在非合作博弈中,一些威胁和承诺是不可信的
( 三马食槽故事,96军演威胁 ),如何选择那些能够实现一致预期的均衡结果;
精练问题:对于博弈存在多重均衡的情况,如何判断哪些均衡更有可能实现。 多重均衡的意义第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 8
[资料夹 ]三马食槽 ——承诺的可信性:
明帝托孤托给曹爽与司马懿。曹爽党羽李胜要到荆州任刺史,临行前去拜望司马懿。司马懿假装病重,耳聋并且胡涂,曹爽等从此不再防备司马懿。魏帝曹芳离开洛阳去祭扫魏明帝的坟墓高平陵,曹爽兄弟均跟从。司马懿乘机上奏永宁太后,请废曹爽兄弟,史称,高平陵事变,。
司马懿自己率太尉等勒兵出迎天子,驻扎在洛水浮桥。桓范劝曹爽挟持皇帝到许昌去,发文书征调天下兵马勤王。曹爽优柔寡断,夜里遣人见司马懿,探听动静。司马懿乘机劝诱,朝廷只是免他的官职罢了,
并以洛水为誓。顾及城中家小,欲信其言。桓范等人援引古今,百般劝谏无效。曹爽请皇帝下诏免去自己官职,随皇帝进入京城。
曹爽兄弟一回府,即被司马懿派兵包围。不久,司马懿以谋反的罪名,杀曹爽及其党羽,并灭三族。后阮籍,天下无英雄,使竖子成名,
思考:曹真的理性选择?(勤王)
2006-3-7 9
96军演威胁 —— 威胁的不可信
96李登辉访美,抛出,两国论,。在台湾当局,总统,大选前大陆举行军事演习,预定落弹点台湾东部,美国出动航母战斗群。
由于大陆高层军事将领叛国提前泄露情报,李登辉指出导弹是空弹壳,叫嚣不怕。大选支持率反而上升。
大陆放弃武力犯台,台湾以不独立回应 —— 承诺不可信这是典型的动态不一致的例子。因为给定大陆已经同意不武力防独的情况下,台湾没有必要再保持不独立的承诺,到那时,
最佳的策略是独立。所以 "大陆先放弃武力犯台的威胁,台湾再以不独立回应大陆的善意 " 不可能是一个子博弈均衡 ( Subgame
perfect equilibrium).
[资料夹 ]台海局势中威胁与承诺的可信性:
2006-3-7 10
经济学,报酬递增产生多重均衡
多重均衡产生,路径依赖,现象,,锁定( lock-in),在低效率的均衡:其中的一种均衡状态比另一种均衡状态有着更高的劳动分工和生产率水平,但由于生产者之间的,协调失灵,,经济无法由低分工水平均衡跃迁到高分工水平均衡。
举例:计算机键盘沿袭打字机,为防止机械机构纠缠故意设计别扭;
现代类人猿锁定在进化死胡同中。
比较优势理论的局限性:
单一均衡,可以发挥比较优势,尽快收敛到工业化国家均衡点;
对于多重均衡,农业技术运用上可能导致,传统农业技术陷阱,;国际分工当中可能导致,贸易陷阱,,被锁定在国际产业分工链的低端。
[资料夹 ]多重均衡的意义:
S
D
Q
P供给 S增加,同时价格 P下降
2006-3-7 11
博弈均衡是如何形成的??
Nash在其博士论文,Non-cooperative games”( 1950年)
给出 Nash均衡的两种 解释,
一种是,理性主义,的、内省的、演绎的传统解说 —— 均衡是通过理性的参与者进行严密的逻辑演绎推理得到的,
对参与者的理性能力有较高要求(传统博弈分析,顿悟 )。
一种是 学习的、归纳的、演化的解说 —— 当时没有很好的方法构建数学模型(国际上 90年代兴起演化博弈理论,渐悟 )。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 12
[资料夹 ]佛教禅宗六祖慧能,顿悟,,
六祖慧能原在一家小旅馆里打杂,有一天在给客人收拾东西的时候听客人在念,金刚经,。六祖慧能听罢便觉其中奥义博大,于是决心出家为僧。他投在五祖弘忍门下,每日做些杂务。
有一日,五祖要门下众人将自己领悟的佛法写做一偈,大弟子神秀在门前徘徊许久,又返回居所。后来在墙上写的是,身若菩提树,心如明镜台。时时勤拂拭,莫使惹尘埃(渐悟) 。弟子们看见了十分钦佩。五祖看了,却说他还没有领悟佛法的真谛。众弟子自然不明白其中的道理。
又一日,有游客入寺。慧能请求游客帮忙,游客问他你为什么不自己写呢?慧能说我不识得字。游客笑他说:你连字都不识还能领悟佛法?慧能说我能否领悟,你看偈语便知道了。游客笑道:那好,你若能领悟,别忘记引我入法门啊!
于是,慧能说,那游客写道,菩提本无树,明镜亦非台。本来无一物,
何处惹尘埃?(顿悟) 众人看后大惊,才知慧能果然领悟了佛法真谛!就这样,五祖将衣钵传与六祖慧能。而神秀则是北派佛教一代宗师!
2006-3-7 13
理性主义的均衡实现,
均衡形成的,理性主义,的传统博弈观点,认为均衡形成纯粹是一个高度理性的智力游戏,并在瞬间实现了均衡。
局限性举例:
分钱博弈:两个参与者对 100美圆协商进行分配,如果无法达成一致意见,则都得不到。理论分析结果:在[ 0,100]之间的连续集合上有无限多均衡。实际结果将是 50,50—— 因为这一均衡具有符合公平的社会原则特点,成为吸引注意力的焦点。
Schelling( 1960)提出焦点理论( focal-point) —— 多重均衡中考虑公平、效率、对等原则等社会和文化习俗因素。该观点是在个体
,冰冷的,理性选择中(经济学规范),引入了社会准则的伦理道德(社会学规范)。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 14
演化主义的均衡实现,
真实世界中,有限理性的人们,行为具有模仿、经验主义的、惯例特征,从错误和尝试中进行学习。( 80年代改革,摸石头过河,)
由于实际中会发生重复,时间弥补了较弱的理性 。
在学习过程中,有限理性的参与者在观察对手的行动后,根据一些实用主义的修正原则(各种动态调整过程),修改关于对手未来采取行动的预期。
一个有意思的结果:如果动态的过程是收敛的,则将趋向于传统博弈的均衡点。即使参与者行为是有限理性的,群体行为的演化最终也学会达到理性均衡。(真实世界里的市场经济图景)
根据进化论的均衡观点,传统博弈对多重均衡进行精练没有太大意义,因为真实世界中的均衡来自于历史演化的初始条件和演化过程中引起突变的一些随机事件。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
2 均衡
2006-3-7 15
Maynard Smith(1982)等研究鹰鸽博弈等生物种群竞争现象,构造了基本分析框架。
每个参与者代表一个种群,随机组合匹配,进行预先规定好收益的要素博弈;
少部分参与者的策略产生 突变 (试错法);大部分参与者根据不同的学习规则进行模仿,其中最有效率的参与者经 选择 过程得以大量复制;(物演天择,适者生存)
演化主义基于群体行为的均衡 判断标准:当群体发生少部分突变策略产生入侵,造成不同策略的分布构成发生一个很小的变化后,
仍能维持原稳定构成。
演化博弈理论成为 90年代以来博弈论最为活跃的一个领域之一,
并应用在经济社会体制的起源和多样性、互补性演化研究中。
[资料夹 ]演化主义均衡形成观的生物学起源:
2006-3-7 16
非合作博弈,除了 规则允许的协议 以外,参与者之间无法达成有约束力的协议,作出的威胁、许诺是无法强制实施的,因此参与者只能根据,可察觉到的自我利益( perceived self-interest),决策,
例子:一次性囚徒困境博弈中攻守同盟的瓦解
在非合作博弈中,仍可以出现内生的合作行为:
1 无名氏定理揭示出,无限次重复博弈可摆脱,囚徒困境,;
2 考虑声誉效应后,可以在有限次重复博弈中实现合作。
P NP
-1,-
1
-8,0
0,-8-5,-5P
NP
2
1
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
3 合作
2006-3-7 17
合作博弈,参与者之间的协议是有完全约束力并能够实施的,
即外生给定的。
合作博弈研究的主要问题:如何实现有约束力的协议的参与者之间无冲突的串谋?
—— 不同于非合作博弈主要分析个人行为,合作博弈分析的是参与者形成什么样的联盟?如何瓜分合作的收益?
—— 如果合作能够带来收益,但不是所有参与者都接受分配方案,
则假定存在强制实施协议的外在机制(制度、仲裁者等)
举例,我国汽车行业的串谋第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
3 合作
2006-3-7 18
思考:人类进入信息社会,什么是信息?
1948年,信息论奠基人之一香农( Shanon,美国数学家)第一个以信息公式的方式定义,信息是熵的减少,,这里用到的,熵,是不确定性的度量。实际上该定义是说,信息是,用来消除不确定的东西,。
控制论的奠基人维纳( Wiener) 1948年指出:,信息就是信息,不是物质,也不是能量,。专门指出了信息是区别于物质与能量的第三类资源。
信息是用语言、文字、数字、符号、图象、声音、表情、状态等方式传递的内容。强调了信息的知识性。
有人强调信息的作用性,发展香农定义,提出信息是具有新内容与新知识的消息。
第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
4 信息
2006-3-7 19
博弈论中的两种信息特性,
完美信息 ( perfective information) —— 参与者在选择行动时了解以前的历史,并且双方没有同时行动。
举例:玩跳棋时的信息?喝酒猜拳的信息?
完备信息( complete information) —— 参与者对博弈的信息是否完全了解,又称完全信息。 当各个要素(参与者、规则、得益、
策略)都是共同知识时,为完备信息。
根据博弈的信息特征,传统博弈理论分为:
完全完美信息博弈、
不完全或不完美信息博弈第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
4 信息
2006-3-7 20
信息问题在传统博弈理论中占据着核心地位,
由于私人信息的存在造成不完全信息,
(庄子,子非鱼安知鱼之乐?,,子非吾,安知吾不知鱼之乐?,)
产生了参与者的道德风险行为和逆向选择行为,导致效率损失( 人民公社后期低效率 )。
为此,要设计一种激励相容的机制(博弈规则),机制设计理论
—— 信息经济学第二章 预备知识( 2)
第一节 博弈论的一些重要概念:经验主义、均衡、合作、信息
4 信息
2006-3-7 21
初期 50,60年代合作化高效率数据,,傻子,雷锋原因:共产党人的革命理想主义和群众的热情,不符合经济学的
,自私,人性假设。(当今河南的南街村)
后期 70年代人民公社低效率由于集体行动中私人信息的存在,造成考核时信息不完全,计时制道德风险行为:走后门,偷懒;
逆向选择行为:出工高的反而是笨手,前苏联发起反酗酒运动
80年代大包干的激励机制分散劳动,交足国家的,剩下都是自己的。
农民的劳动和自身利益直接挂钩,激励相容问题:分散劳动与农业机械化大生产的矛盾、水利设施等建设、勤劳能致富吗?
[资料夹 ]人民公社后期低效率 ——一个信息问题的例子:
2006-3-7 22
参与者( player):
可以是个体( 包括自然人和企业、国家、国家集团等团体 )、群体(演化博弈);包括自然(此时为决策问题);
自然:指决定外生的随机变量的机制。为分析方便引入,自然作为虚拟参与人没有自己的支付和目标函数(即所有结果对它是无差异的);
参与人决策的后果依赖于自然的选择。在不完全信息博弈中,自然选择参与人的类型。
第二章 预备知识( 2) 第二节 博弈的基本要素
2006-3-7 23
行动( action),
参与者在某个时点的决策变量,用 Ai表示第 i个参与人的一个特定行动;
行动的顺序:行动的顺序对于博弈的结果是非常重要的,事实上,不同的行动顺序意味着不同的博弈。
一般假设参与者的行动空间和行动顺序是所有参与者的共同知识,
但是对参与者采用某一具体行动的信息可以是不完备的。
静态博弈 ( static game),又称 同时行动博弈 ( simultaneous-move game):
参与者们同时行动(或秘密行动),且独立行动(参与者做出决策前无法获得其他人的决策信息)。
思考,此时的信息特征?(不完美信息)
动态博弈 ( dynamic game),又称序贯行动博弈:不同参与者具有先后行动顺序,并能够为对方观察到。
第二章 预备知识( 2) 第二节 博弈的基本要素
2006-3-7 24
策略( strategy),
参与者在给定信息集的情况下选择行动的规则,它规定参与者在什么情况下选择什么行动,是参与者的“相机行动方案”,包括参与者采取行动的完整描述。
对于静态博弈,策略等于行动;对于动态博弈,策略针对不同情况由一系列不同阶段分别采取的行动构成。
对策略的理解:博弈过程中,参与者在可行策略集合中选择策略。
策略可以理解成指示代理人进行博弈的一系列指令,其必须是毫无遗漏的;代理人按照指令参与博弈,本身没有任何主观的直觉判断意图。 相当于计算机按照既定程序运行,从而简化了行为的分析
思考:理性限制使得参与者的思考过程机械化,从而实现数学建模第二章 预备知识( 2) 第二节 博弈的基本要素
2006-3-7 25
收益(或者支付,payoff),
参与者采取某一策略所对应的结果;
假定支付代表了参与者对博弈结果的主观评价,此时等价于效用 (utility),
直接反映了参与者对风险的评价
( 决策理论中期望效用函数的凹凸程度代表对风险态度,凹的表示风险规避的 ) ;
如果实验博弈等研究参与者对风险态度时,支付不同于效用。
规则( rule),
外生规则:博弈进行前预先规定好的;
内生规则:参与者对博弈均衡的预期形成的信念。
博弈的外部环境( environoment),
外部环境的改变将影响博弈均衡第二章 预备知识( 2) 第二节 博弈的基本要素
2006-3-7 26
对弈:
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述仙人对弈图(局部放大图,作者:陈玉圃)
2006-3-7 27
“策略式”模型 (Shapley,1973采用这一术语,最初采用,标准式,)
策略式表述模型是把每一可行的策略向量 与支付向量 相联系的函数( X1,…,X n; u1,…,u n)。
,策略式”表述模型必须说明:
( 1)参与者集合 {A,B};
( 2)每个参与者的可行策略集合 {N,NP};
( 3)每个参与者采取某一可行的行动组合时,所获得的支付。
注:策略式表述不涉及行动顺序。
,1,,iix X i n
1( ( ),,( ) )nu x u x
-8,-8 0,-10
-10,0 -1,-1
坦白 P
抵赖 NP
坦白 P 抵赖 NP囚徒 A
囚徒 B
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 28
“策略式”模型的几点说明:
混合策略:参与者随机地在所有可行策略集中选出要采取的策略。
其中,p j 为参与者选择纯策略 x j的概率:
不确定性来源:一个偶然行动介入博弈;参与者对策略进行随机化。
参与者不确定决策的支付函数为 Von·Neumann-Morgenstern函数
(VNM),参与者最大化“期望”支付。
策略式表述模型用于双人有限博弈比较方便(表示为双矩阵,by-
matrix);
策略式模型中所有参与者一次性选择策略,仅适用于同时行动博弈
(即静态博弈问题)。
1 1(,,),0,1,mm j jjp p p p p其 中第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 29
动态决策(序贯决策)问题:
决策树是由决策点、事件点和结果构成的树图;采用逆序解法;决策准则常为最大收益期望值准则 EMV。
决策问题是博弈的一种特例,其中一方是自然参与者。
钻井 出油 0.55
800
- 150
无油 0.45 0
转让开采权 160
1 1
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 30
“扩展式”模型 (Von Neumann和 O,Morgenstern,1944)
扩展式表述模型准确描述了参与者的行动顺序和参与者采取行动时所拥有的信息。
,扩展式”表述模型必须说明:
( 1)参与者集合;
( 2)该轮到谁采取行动;
( 3)在他(她)的每个信息集中,可以选择什么;
( 4)在他(她)做出决策时,知道什么;
( 5)每个参与者采取某一可行的行动组合时,所获得的支付。
思考,同时行动博弈是否可采用扩展式表述模型?
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 31
扩展式博弈用博弈树( game tree)表示,
结点:包括初始结点、决策结点 (作出决策 )、终结点 (对应参与者报酬 );若结点是有限的,则称有限次博弈。
枝:从一个决策结到它的直接后续结的连线,每一个枝代表参与者的一个行动选择;
信息集:一个参与者无法作出区分的最大决策点集合(如图,囚徒 B
无法判断 A的行动,因此其信息集为虚线连接)。
例:扩展式囚徒困境
B
(-8,-8) (0,-10) (-10,0) (-1,-1)
A
坦白 抵赖坦白 抵赖 坦白 抵赖第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 32
“扩展式”模型的几点说明:
当事件中有偶然因素介入时,在初始结点引入,自然,参与者,因为偶然因素等价于,自然,在参与人之前行动但参与人不能观测到。
完美回忆 ( perfect recall)
—— 通俗描述:当轮到某个参与者行动时,从不会忘记过去知道什么,做了些什么。
—— 标准描述:在博弈树的每个信息集处,每个参与者知道以前的所有信息集,和在那些信息集所做的决策
完美信息,参与者在选择行动时了解以前的历史(即完美回忆),并且没有同时行动。如果博弈树的所有信息都是单结的,该博弈称为完美信息博弈。
思考:玩扑克牌不分伙时的信息?
(不知道对手的信息集,不完备的,但完美信息)
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 33
练习 1:“扩展式”表述模型的一个例子
双人博弈中,每人都有两种行动,参与者 1先行。
a 参与者 2知道 1的行动; b 参与者 2不知道 1的行动; c 有偶然行动,且 2不知道 1的行动
1
2
1
2
N
1
2
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 34
练习 2:
剪刀 -石头 -布,双人博弈中,同时行动,
每人有三个策略 (石头 Rock、剪刀 Scissors、布 Cloths)
思考,如何用扩展式表述模型? 0,01,-1-1,1
-1,10,01,-1
1,-1-1,10,0
C
R
C
R S
S
1
2
C
1
2
R C S
RRR C CS S S
(0,0)(-1,1)(1,-1)(1,-1)(0,0)(-1,1)(-1,1)(1,-1)(0,0)
R C S
RRR C S S S
2
1
(0,0)(-1,1)(1,-1)(1,-1)(0,0)(-1,1)(-1,1)(1,-1)(0,0)
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 35
分赃:
问题:有哪些人参与分食?
共享的蛋糕有多大?
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 36
“联盟式”模型
合作博弈中参与者可以达成有约束力的协议并且形成联盟,此时采用策略式或者扩展式表述无法描述出合作的得益。
参与者集合 N,n个参与者博弈中,形成的联盟 S的数目即为参与者集合 N= {1,…,n}的非空子集数目 S= 2n- 1(包括大联盟),S? N。
特征函数 v( S)( characteristic function):不管联盟 S以外的参与者行动如何,联盟所能保证给成员带来的全部可转换效用,又称为联盟的保证水平。 记为 v( S),B→R,即从所有联盟的集合 B到实数集 R
的一个函数,S∈ B 。
参与者的可转换效用( transferable utility)是指每一联盟 S都可以获得总效用,其可以在联盟者之间分配。
可转换效用的联盟式博弈(或特征函数式博弈):( N,v) 。
其中,N为参与者集合,v( ·)为特征函数。
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 37
“联盟式,模型 的几点说明:
特征函数 v( ·) 是研究联盟博弈的基础,确定特征函数即是一个建立合作博弈模型的过程。
可转换效用的合作博弈,相当于假设参与者的拟线性效用( quasi-
linear utility),
即支付可以分解为货币和其他物品,而货币是线性的(满足可加性)。
不可转换效用的合作博弈,其特征函数不是一个总的效用值,而是分配给每个参与者的一个向量函数,v( S)=( v1(S),…,v n(S))
0 1 0 1(,,,) (,,)kkU x x x x u x x
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 38
可转换效用的,联盟式,表述模型的两个例子
投票规则假定投票人可以达成有约束力的协议,投票规则可用一个可转换效用的合作博弈来模型化。
采用 0- 1规范化后,v( N)= 1,N为所有参与者的大联盟;
如果每个参与者 i都投自己一票,v( {i})= 0;
如果形成某一联盟 S? N,根据简单多数的投票程序,如果联盟 S的得票数超过半数,则获胜,v( S)= 1;否则,v( S)= 0。
市场交易市场上 3个交易者,卖主 1和买主 2,3(分别出价 9元,10元)。要价是 x
元,买主 2的获利( 9- x)元,买主 3的获利( 10- x)元。
对于联盟 {1,2}和 {1,3},v{1,2}= 9,v{1,3}= 10;
对于单个交易者或两个买主,无法成交,v {i}= v{2,3} =0;
对于三人一起交易,将卖给卖主 3,v{1,2,3}= 10
石油输出国组织( OPEC)
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
2006-3-7 39
1960年 9月,由伊朗、伊拉克、科威特、沙特阿拉伯和委内瑞拉的代表在巴格达开会,决定联合起来共同对付西方石油公司,维护石油收入,五国宣告成立 石油输出国组织 (Organization of Petroleum
Exporting Countries -- OPEC),简称“欧佩克” 。之后成员国增加到 11个,即 阿尔及利亚,阿拉伯联合酋长国,卡塔尔,利比亚,尼日利亚 和 印度尼西亚,欧佩克发展成主要石油生产国的国际性石油组织。总部设在维也纳。
石油输出国组织宗旨是协调和统一各成员国的石油政策。为使石油生产者与消费者的利益都得到保证,欧佩克实行石油生产配额制。
为防止石油价格飚升,可依据市场形势增加其石油产量;为阻止石油价格下滑,可依据市场形势减少其石油产量。
2003年该组织成员石油总储量为 1191.125亿吨,约占世界石油储量的 69%,其中排在前三位的成员分别是沙特阿拉伯 (355.342亿吨 )、伊朗 (172.329亿吨 )和伊拉克 (157.534亿吨 )。 2003年该组织成员原油产量为 13.218亿吨,约占世界原油产量的 39%,前三位的成员分别是沙特阿拉伯 (4.215亿吨 )、伊朗 (1.865亿吨 )和尼日利亚 (1.06亿吨 )。
[资料夹 ]石油输出国组织(欧佩克):
2006-3-7 40
对于非合作博弈 的表述形式;
——“扩展式”模型 ( extensive-form)
——“策略式(标准式),模型 ( strategic-form),策略式,仅适用静态博弈
对于合作博弈 的表述 形式
——“联盟式”模型 ( coalitional-form)
第二章 预备知识( 2) 第三节 博弈模型的三种正规表述
-8,-8 0,-10
-10,0 -1,-1
例 2:扩展式囚徒困境
B
(-8,-8)(0,-10)(-10,0) (-1,-1)
A
坦白 抵赖坦白 抵赖 坦白 抵赖囚徒 B
坦白抵赖坦白 抵赖囚徒 A
例 1:策略式囚徒困境
2006-3-7 41
本章总结:
博弈论各个分支的构成;
形成博弈均衡的两种解释 —— 理性主义和演化主义;
博弈的基本要素 —— 参与者,行动,策略,支付,规则,环境;
三种博弈表述模型适用范围 —— 策略式;扩展式;联盟式 ;
几个重要的概念:
( 1)选择与精炼;
( 2)同时行动博弈和序贯行动博弈;
( 3)完美回忆和完美信息;
( 4)参与者决策不确定的来源;
( 5)合作博弈的特征函数;
课后阅读 (一些相关资料可从网络课程中下载):
我国医药价格过高的行业串谋行为。