第四章 贝叶斯分析
Bayesean Analysis
§4.0引言
一、决策问题的表格表示——损失矩阵
对无观察(No-data)问题 a=δ
可用表格(损失矩阵)替代决策树来描述决策问题的后果(损失):
…
…
π()
…
π()
…
π()
或
π()
…
π()
…
π()
…
…
损失矩阵直观、运算方便
二、决策原则
通常,要根据某种原则来选择决策规则δ,使结果最优(或满意),这种原则就叫决策原则,贝叶斯分析的决策原则是使期望效用极大。本章在介绍贝叶斯分析以前先介绍芙他决策原则。
三、决策问题的分类:
1.不确定型(非确定型)
自然状态不确定,且各种状态的概率无法估计.
2.风险型
自然状态不确定,但各种状态的概率可以估计.
四、按状态优于:
≤ (I, 且至少对某个i严格不等式成立, 则称行动按状态优于
§4.1 不确定型决策问题
一、极小化极大(wald)原则(法则、准则)
l ( , ) 或
例:
10
8
7
9
4
1
9
2
13
16
12
14
6
9
8
10
各行动最大损失: 13 16 12 14
其中损失最小的损失对应于行动.
采用该原则者极端保守, 是悲观主义者, 认为老天总跟自己作对.
二、极小化极小
l ( , ) 或
例:
10
8
7
9
4
1
9
2
13
16
12
14
6
9
8
10
各行动最小损失: 4 1 7 2
其中损失最小的是行动.
采用该原则者极端冒险,是乐观主义者,认为总能撞大运。
三、Hurwitz准则
上两法的折衷,取乐观系数入
[λ l ( , )+(1-λ〕 l ( , )]
例如 λ=0.5时
λ : 2 0.5 3.5 1
(1-λ〕: 6.5 8 6 7
两者之和: 8.5 8.5 9.5 8
其中损失最小的是:行动
四、等概率准则(Laplace)
用 来评价行动 的优劣
选
上例: : 33 34 36 35 其中行动 的损失最小
五、后梅值极小化极大准则(svage-Niehans)
定义后梅值 =-
其中为自然状态为 时采取不同行动时的最小损失.
构成后梅值(机会成本)矩阵 S={} ,使后梅值极小化极大,即:
例:损失矩阵同上, 后梅值矩阵为:
3 1 0 2
3 0 8 1
1 4 0 2
0 3 2 4
各种行动的最大后梅值为: 3 4 8 4
其中行动a1 的最大后梅值最小,所以按后梅值极小化极大准则应采取行动1.
六、Krelle准则:
使损失是效用的负数(后果的效用化),再用等概率(Laplace)准则.
七、莫尔诺(Molnor)对理想决策准则的要求 (1954)
1.能把方案或行动排居完全序;
2.优劣次序与行动及状态的编号无关;
3.若行动 按状态优于,则应有 优于 ;
4.无关方案独立性:已经考虑过的若干行动的优劣不因增加新的行动而改变;
5.在损失矩阵的任一行中各元素加同一常数时,各行动间的优劣次序不变;
6.在损失矩阵中添加一行,这一行与原矩阵中的某行相同,则各行动的优劣次序不变。
§4.2 风险型决策问题的决策原则
一、最大可能值准则
令 π()=maxπ()
选 使 l(,)=l(,)
例:
π()
0.2
7
6.5
6
0.5
3
4
5
0.3
4
1
0
π() 概率最大, 各行动损失为 3 4 5
∴应选行动
二、贝叶斯原则
使期望损失极小:
{ l( , ) π() }
上例中,各行动的期望损失分别为 4.1 3.6 3.7, 对应于的期望损失3.6最小
∴应选.
三、贝努利原则
损失函数取后果效用的负值,再用Bayes原则求最优行动.
四、E—V(均值—方差)准则
若 ≤ 且 则优于
通常不存在这样的
上例中:
E 4.1 3.6 3.7
V() 2.29 3.79 5.967
不存在符合E—V准则的行动, 这时可采用f(μ,σ)的值来判断(μ为效益型后果的期望)
( μ-ασ
f( μ,σ)=( μ-ασ
( μ-α(μ+σ)
f越大越优.
五、不完全信息情况下的决策原则(Hodges-Lehmann原则)
状态概率分布不可靠时, 可采用:
φ()=λ + i=1,2,… ,m j=1,2,…,n
φ越大越优.
§4.3贝叶斯定理
一、条件概率
1.A、B为随机试验E中的两个事件
P(A|B)=P(AB)/P(B)
由全概率公式: j=1,2,…,n 是样本空间的一个划分,
P(B)=P(B|)P()
得Bayes公式
P(|B)=P(B|)·P()/P(B)
= P(B|)·P()/P(B|)P()
2. 对Θ,Χ两个随机变量
·条件概率密度
f(θ| x)=f(x |θ)f(θ)/f(x)
·在主观概率论中
π(θ| x)=f(x |θ)π(θ)/m(x)
其中:π(θ)是θ的先验概率密度函数
f(x|θ)是θ出现时,x的条件概率密度,又称似然函数.
m(x)是x的边缘密度, 或称预测密度.
m(x)= f(x |θ)π(θ) dθ
或 p(x|)π()
π(θ|x)是观察值为x的后验概率密度。
例:A 坛中白球30%黑球70%
B 坛中白球70%黑球30%
两坛外形相同,从中任取一坛,作放回摸球12次,其中白球4次,黑球8次,求所取为A坛的概率.
解:设观察值4白8黑事件为x,记取A坛为 , 取B坛为
在未作观察时,先验概率p()=p()=0.5
则在作观察后,后验概率
P(|x)=p(x|)p()p(x|)p()+p(x|)p()
=××0.5(××0.5+××0.5)
=(×)
=0.24010.2482
=0.967
显然, 通过试验、观察、可修正先验分布.
§4.4 贝叶斯分析的正规型与扩展型
一、正规型分析
由Baysean原则:先验分布为π(θ)时,最优的决策规则δ是贝叶斯规则,使贝叶斯风险
r(π, )= r(π,δ(x))
其中:r(π,δ(x))= R(θ,δ(x))
=[ l(θ,δ(x))
= l(θ,δ(x)) f(x |θ)dxπ(θ) dθ (1)
据(1)式,选使r(π,δ)达到极小,这就是正规型的贝叶斯分析。
在解实际问题时,求使(1)式极小的δ(x)往往十分困难,尤其在状态和观察值比较复杂时,Δ集中的策略数目很大,穷举所有的δ(x)有困难,且计算量颇大。实际上可用下法:
二、扩展型贝叶斯分析(Extensive Form Analysis)
在(1)式中因l(θ,δ)>-∞,f(x|θ),π(θ)均为有限值。
∴由Fubini定理,积分次序可换
即r(π,δ(x))= l(θ,δ(x)) f(x |θ)dxπ(θ) dθ
= l(θ,δ(x)) f(x |θ)π(θ) dθdx (2)
显然,要使(2)式达到极小,应当对每个x∈X,选择δ,
使 l(θ,δ(x)) f(x |θ)π(θ) dθ (2’)为极小
∵δ(x)=a ∴若对给定的x,选a,使 l(θ,δ(x)) f(x |θ)π(θ) dθ 为极小
亦即,
使 l(θ,a) f(x |θ)π(θ) dθ
=l(,a) π(|x) dθ 或 l(,a)p(|x) (3) 达极小,即可使(1)式为极小.
·结论:
对每个x,选择行动a,使之对给定x时θ的后验分布π(θ|x)的期望损失为极小,即可求得贝叶斯规则。
这种方法叫贝叶斯分析的扩展型,由此确定的贝叶斯规则叫formal Bayesean Rule
——Raiffa Sehlaifer,1961年提出。
·Note
·使(3)式达极小的行动可能不只一个,即可能有多个贝叶斯规则;
·扩展型比正规型更直观,也容易计算,故更常用;
·许多分析人员只承认扩型,理由是:
i,π(θ|x)描述了试验后的θ的分布,比π(θ)更客观,因此,只要损失函数是由效用理论导出的(即考虑了DMer的价值判断、风险偏好),在评价行动a的优劣时就应当用后验期望损失。
ii, r(π,δ)是根据π(θ)求出的,而用先验分布π(θ)来确定行动a并不一定适当。
从根本上讲,这种观点是正确的。
·无论从何种观点来进行贝叶斯分析,从理论上讲,结果是一样的,所以采用何种方法可视具体问题,据计算方便而定。
·已经证明,形式贝叶斯分析对一类非随机性决策规则是成立的,也可以证明它对随机性决策规则同样成立。使所有x上后验期望损失极小的贝叶斯规则也是随机性规则集Δ*中的Bayes规则,因此,总可以找到一验期望损失极小的非随机性规则。
三、例(先看无观察问题)
农民选择作物问题,设某地旱年占60%,正常年景占40%; 种植耐旱作物
种不耐旱作物,后果矩阵为:
20 0
60 100
决策人的效用函数 u(y)=(1-)
解:i令:l(y)=1-u(y)
ii,作决策树:
iii, 在无观察时, R=l, r= l(,a)π()
r(π, )=l(,)π()+l(,)π()
=0.62 ×0.6+0.19 ×0.4
=0.448
r(π, )= l(,)π()+l(,)π()
=1.0 ×0.6+0 ×0.4
=0.6
风险r小者优, ∴δ=,是贝叶斯规则, 即贝叶斯行动.即应选择耐旱作物。
四、例(续上)
设气象预报的准确性是0.8,即p(|)=0.8 p(|)=0.8
其中,预报干旱
预报正常年景
则 m()=p(|)π()+p(|)π()
=0.8 ×0.6+0.2 ×0.4=0.56
m()=0.44
π(|)=p(|)π()m()
=0.8 ×0.6/0.56=0.86
π(|)=p(|)π()m()
=0.2 ×0.6/0.44=0.27
π(|)=0.14
π(|)=0.73
正规型分析
①策略: = () =()
r(π, )=l (,())p(|)π()
4-7
= l (,)p(|)π()+l (,)p(|)π()
+ l (,)p(|)π()+l (,)p(|)π()
=0.62×0.8×0.6+1.0 ×0.2×0.6+0.19 ×0.2×0.4+0.0× 0.8×0.4
=0.4328
②策略: =() =()
r(π, )=l (, ())p(|)π()
= l (,)p(|)π()+l (,)p(|)π()
+ l (,)p(|)π()+l (,)p(|)π()
= 0.62×0.2×0.6+1.0×0.8×0.6+0.19×0.8× 0.4+0.0×0.8× 0.4
=0.6152
③策略: = () =()
r(π, )=0.45
④策略: =() =()
r(π, )=0.6
∵r(π, ) <r(π, ) <r(π, ) <r(π, )
∴ ((( 是贝叶斯行动。
4-82.扩展型之一:据(2’) : l(θ,δ(x)) f(x |θ)π(θ) dθ 记作r’
①给定(预报干旱):
采用 r‘=l (,)p(|)π()
= l (,)p(|)π() + l (,)p(|)π()
= 0.62×0.8×0.6+0.19 ×0.2×0.4
=0.3128
采用 r’= l (,)p(|)π() + l (,)p(|)π()
=0.48
∵风险小者优 ∴给定应选
②给定(预报天气正常)
采用 r’= l (,)p(|)π() + l (,)p(|)π()
=0.62×0.2×0.6 + 0.19× 0.8× 0.4
=0.135
采用 r’= l (,)p(|)π() + l (,)p(|)π()
=1.0×0.2×0.6 + 0
=0.12
∴给定应选
由此得形式Bayes规则 : = () =()
3.扩展型之二:据(3)式 即l(,a) π(|x) dθ 或 l(,a)π(|x)(记作r”)
①给定,
采用 r”= l(,)π(|)
= l(,)π(|) + l(,)π(|)
=0.62 ×0.86 + 0.19 ×0.14
=0.56
采用 r”= l(,)π(|) + l(,)π(|)
= 1.0 ×0.86 + 0× 0.14
=0.86
∴给定,应选行动.
②给定
采用 r”= l(,)π(|)
= l(,)π(|) + l(,)π(|)
=0.62 ×0.27 + 0.19 ×0.73 = 0.3061
采用 r”= l(,)π(|)
= l(,)π(|) + l(,)π(|)
=1.0 ×0.27 + 0 ×0.73 =0.27
∴给定 应选择行动.
∴形式Bayes规则: = () =()
§4.5 非正常先验与广义贝叶斯规则
一、非正常先验(Improper Prior)
概率测度的三个条件:
i,规范性:P(Ω)=1
ii,非负性:0≤P(A)≤1
iii,可列可加性
在设定先验分布时,若不满足规范性,则称为非正常先验.
二、广义贝叶斯规则(General Bayesean Rule)
1.定义:
决策问题的损失函数为l(θ,a),π(θ)为非正常先验分布,对给定的,使
i, l(θ,δ(x)) f(x |θ)π(θ) dθ 为极小,或者
ii, 0<m(x)<-∞时,使 l(,a) π(|x) dθ 为极小的策略(行动),构成广义贝叶斯规则.
2.Nole:①在许多重要场合,所有允许的都是GBR
②在无法得到正常先验时,除此别无良策;
③GBR不一定是最好的决策规则
§4.6 一种具有部分先验信息的贝叶斯分析法
一、概述
1.思路:在部分先验信息难以唯一地确定π(θ)时,抛开唯一性要求,转而确定与已知先验
信息相符的先验分布的集。
2.符号
i, Θ 和A为有限集:Θ={,,…,}
A={,,…,}
损失矩阵L={} =l (,)
ii,根据贝叶斯分析的扩展型
给定x,应从集合A中选一行动 ,使
q(a)= l (,a) p(|)π() 为极小,亦即
= arg q(a) 或 q()≤q() j=1,2,…,m (4)
则 为贝叶斯行动.
记p(|)为(x) , π() 为
(=[,,…,] π={,,…,}
则 l (,a) p(|)π()=([diag{(x) }π]
(4)式可表示成 ([diag{(x)}π]≤([diag{(x) }π] i=1,2, …,n (5)
j=1,2, …,m
(5)式即 [ (L-1 () diag{(x) }] π ≥0 (5’)
记 (L-1 () diag{(x) } 为D(x), 式(5’)可表示为:
D(x) π ≥0 (5”)
3. (5”)式的含义
(1)给定x,先验分布为π时,应选 使5(即5’, 亦即5”)式成立。
对给定的x,要使 成为贝叶斯行动,π应满足 5(即5’, 亦即5”)式.
由(2)可以定义
(x)={ π∈Π| D(x) π ≥0 ;, ≥0 }
式中, Π是先验分布的所有可能的集,
(x) 是Π的一个子集,它能i,使 对给定x为Bayes行动
ii,满足规范性和非负性
二、分析步骤
1. 确定(x)
2. 确定先验信息对先验分布π(θ)的约束:
Q={ π∈Π| Aπ≥0, , ≥0}
式中, Aπ≥0是先验信息对先验分布π(θ)的约束.
3.结论:
当 (x) 与Q有非空交集时,为Bayes行动.
三、例
已知:i, Q={ π∈Π| ≥0.5, ≥, ≥, }
ii,由已往的统计资料,三种病患者的白血球计数:
f(x| )= N( 3000, 1000 )
f(x| )= N( 3000, 1000 )
f(x| )= N( 3000, 1000 )
iii,观察:x=5000
要求判定:患者得什么病
解:p(x|)= p(5000|)
= edx 令x=
= edx
=0.9798 - 0.9744 = 0.0054
同理可得:
p(x| )=0.0091
p(x| )=0.0000105
∵L= , 1 = , ∴L-1 = ,
diag{(x)}= D=
D(5000)( π≥0 即≥
∴(5000)= { π∈Π| -1.69 ≥0, -0.00315≥0, }
同理可得(5000)和 (5000)
三、几何意义
由
2.Q: 由先验信息确定红框内为Q
3.从 D(x) π ≥0 得,, .