第四章 贝叶斯分析 Bayesean Analysis §4.0引言 一、决策问题的表格表示——损失矩阵 对无观察(No-data)问题 a=δ 可用表格(损失矩阵)替代决策树来描述决策问题的后果(损失):  …  …   π()       …       π()       …       π()       或 π() … π() … π()         …              …               损失矩阵直观、运算方便 二、决策原则 通常,要根据某种原则来选择决策规则δ,使结果最优(或满意),这种原则就叫决策原则,贝叶斯分析的决策原则是使期望效用极大。本章在介绍贝叶斯分析以前先介绍芙他决策原则。 三、决策问题的分类: 1.不确定型(非确定型) 自然状态不确定,且各种状态的概率无法估计. 2.风险型 自然状态不确定,但各种状态的概率可以估计. 四、按状态优于: ≤ (I, 且至少对某个i严格不等式成立, 则称行动按状态优于 §4.1 不确定型决策问题 一、极小化极大(wald)原则(法则、准则)    l ( , ) 或   例:       10 8 7 9   4 1 9 2   13 16 12 14   6 9 8 10   各行动最大损失: 13 16 12 14 其中损失最小的损失对应于行动. 采用该原则者极端保守, 是悲观主义者, 认为老天总跟自己作对. 二、极小化极小  l ( , ) 或    例:       10 8 7 9   4 1 9 2   13 16 12 14   6 9 8 10   各行动最小损失: 4 1 7 2 其中损失最小的是行动. 采用该原则者极端冒险,是乐观主义者,认为总能撞大运。 三、Hurwitz准则 上两法的折衷,取乐观系数入 [λ l ( , )+(1-λ〕 l ( , )] 例如 λ=0.5时 λ : 2 0.5 3.5 1 (1-λ〕: 6.5 8 6 7 两者之和: 8.5 8.5 9.5 8 其中损失最小的是:行动 四、等概率准则(Laplace) 用  来评价行动 的优劣 选 上例:  : 33 34 36 35 其中行动  的损失最小 五、后梅值极小化极大准则(svage-Niehans) 定义后梅值 =- 其中为自然状态为 时采取不同行动时的最小损失. 构成后梅值(机会成本)矩阵 S={} ,使后梅值极小化极大,即:  例:损失矩阵同上, 后梅值矩阵为: 3 1 0 2 3 0 8 1 1 4 0 2 0 3 2 4 各种行动的最大后梅值为: 3 4 8 4 其中行动a1 的最大后梅值最小,所以按后梅值极小化极大准则应采取行动1. 六、Krelle准则: 使损失是效用的负数(后果的效用化),再用等概率(Laplace)准则. 七、莫尔诺(Molnor)对理想决策准则的要求 (1954) 1.能把方案或行动排居完全序; 2.优劣次序与行动及状态的编号无关; 3.若行动 按状态优于,则应有 优于 ; 4.无关方案独立性:已经考虑过的若干行动的优劣不因增加新的行动而改变; 5.在损失矩阵的任一行中各元素加同一常数时,各行动间的优劣次序不变; 6.在损失矩阵中添加一行,这一行与原矩阵中的某行相同,则各行动的优劣次序不变。 §4.2 风险型决策问题的决策原则 一、最大可能值准则 令 π()=maxπ() 选 使 l(,)=l(,) 例: π()      0.2 7 6.5 6   0.5 3 4 5   0.3 4 1 0   π() 概率最大, 各行动损失为 3 4 5 ∴应选行动 二、贝叶斯原则 使期望损失极小: { l( , ) π() } 上例中,各行动的期望损失分别为 4.1 3.6 3.7, 对应于的期望损失3.6最小 ∴应选. 三、贝努利原则 损失函数取后果效用的负值,再用Bayes原则求最优行动. 四、E—V(均值—方差)准则 若  ≤ 且  则优于 通常不存在这样的 上例中:      E 4.1 3.6 3.7 V() 2.29 3.79 5.967 不存在符合E—V准则的行动, 这时可采用f(μ,σ)的值来判断(μ为效益型后果的期望) ( μ-ασ f( μ,σ)=( μ-ασ ( μ-α(μ+σ) f越大越优. 五、不完全信息情况下的决策原则(Hodges-Lehmann原则) 状态概率分布不可靠时, 可采用: φ()=λ +  i=1,2,… ,m j=1,2,…,n φ越大越优. §4.3贝叶斯定理 一、条件概率 1.A、B为随机试验E中的两个事件 P(A|B)=P(AB)/P(B) 由全概率公式:  j=1,2,…,n 是样本空间的一个划分, P(B)=P(B|)P() 得Bayes公式 P(|B)=P(B|)·P()/P(B) = P(B|)·P()/P(B|)P() 2. 对Θ,Χ两个随机变量 ·条件概率密度 f(θ| x)=f(x |θ)f(θ)/f(x) ·在主观概率论中 π(θ| x)=f(x |θ)π(θ)/m(x) 其中:π(θ)是θ的先验概率密度函数 f(x|θ)是θ出现时,x的条件概率密度,又称似然函数. m(x)是x的边缘密度, 或称预测密度. m(x)= f(x |θ)π(θ) dθ 或 p(x|)π() π(θ|x)是观察值为x的后验概率密度。 例:A 坛中白球30%黑球70% B 坛中白球70%黑球30% 两坛外形相同,从中任取一坛,作放回摸球12次,其中白球4次,黑球8次,求所取为A坛的概率. 解:设观察值4白8黑事件为x,记取A坛为 , 取B坛为 在未作观察时,先验概率p()=p()=0.5 则在作观察后,后验概率 P(|x)=p(x|)p()p(x|)p()+p(x|)p() =××0.5(××0.5+××0.5) =(×) =0.24010.2482 =0.967 显然, 通过试验、观察、可修正先验分布. §4.4 贝叶斯分析的正规型与扩展型 一、正规型分析 由Baysean原则:先验分布为π(θ)时,最优的决策规则δ是贝叶斯规则,使贝叶斯风险 r(π, )= r(π,δ(x)) 其中:r(π,δ(x))= R(θ,δ(x)) =[ l(θ,δ(x)) =  l(θ,δ(x)) f(x |θ)dxπ(θ) dθ (1) 据(1)式,选使r(π,δ)达到极小,这就是正规型的贝叶斯分析。 在解实际问题时,求使(1)式极小的δ(x)往往十分困难,尤其在状态和观察值比较复杂时,Δ集中的策略数目很大,穷举所有的δ(x)有困难,且计算量颇大。实际上可用下法: 二、扩展型贝叶斯分析(Extensive Form Analysis) 在(1)式中因l(θ,δ)>-∞,f(x|θ),π(θ)均为有限值。 ∴由Fubini定理,积分次序可换 即r(π,δ(x))=  l(θ,δ(x)) f(x |θ)dxπ(θ) dθ = l(θ,δ(x)) f(x |θ)π(θ) dθdx (2) 显然,要使(2)式达到极小,应当对每个x∈X,选择δ, 使 l(θ,δ(x)) f(x |θ)π(θ) dθ (2’)为极小 ∵δ(x)=a ∴若对给定的x,选a,使 l(θ,δ(x)) f(x |θ)π(θ) dθ 为极小 亦即, 使 l(θ,a) f(x |θ)π(θ) dθ =l(,a) π(|x) dθ 或 l(,a)p(|x) (3) 达极小,即可使(1)式为极小. ·结论: 对每个x,选择行动a,使之对给定x时θ的后验分布π(θ|x)的期望损失为极小,即可求得贝叶斯规则。 这种方法叫贝叶斯分析的扩展型,由此确定的贝叶斯规则叫formal Bayesean Rule ——Raiffa Sehlaifer,1961年提出。 ·Note ·使(3)式达极小的行动可能不只一个,即可能有多个贝叶斯规则; ·扩展型比正规型更直观,也容易计算,故更常用; ·许多分析人员只承认扩型,理由是: i,π(θ|x)描述了试验后的θ的分布,比π(θ)更客观,因此,只要损失函数是由效用理论导出的(即考虑了DMer的价值判断、风险偏好),在评价行动a的优劣时就应当用后验期望损失。 ii, r(π,δ)是根据π(θ)求出的,而用先验分布π(θ)来确定行动a并不一定适当。 从根本上讲,这种观点是正确的。 ·无论从何种观点来进行贝叶斯分析,从理论上讲,结果是一样的,所以采用何种方法可视具体问题,据计算方便而定。 ·已经证明,形式贝叶斯分析对一类非随机性决策规则是成立的,也可以证明它对随机性决策规则同样成立。使所有x上后验期望损失极小的贝叶斯规则也是随机性规则集Δ*中的Bayes规则,因此,总可以找到一验期望损失极小的非随机性规则。 三、例(先看无观察问题) 农民选择作物问题,设某地旱年占60%,正常年景占40%;  种植耐旱作物 种不耐旱作物,后果矩阵为:    20 0  60 100 决策人的效用函数 u(y)=(1-) 解:i令:l(y)=1-u(y)  ii,作决策树:  iii, 在无观察时, R=l, r= l(,a)π() r(π, )=l(,)π()+l(,)π() =0.62 ×0.6+0.19 ×0.4 =0.448 r(π, )= l(,)π()+l(,)π() =1.0 ×0.6+0 ×0.4 =0.6 风险r小者优, ∴δ=,是贝叶斯规则, 即贝叶斯行动.即应选择耐旱作物。 四、例(续上) 设气象预报的准确性是0.8,即p(|)=0.8 p(|)=0.8 其中,预报干旱 预报正常年景 则 m()=p(|)π()+p(|)π() =0.8 ×0.6+0.2 ×0.4=0.56 m()=0.44 π(|)=p(|)π()m() =0.8 ×0.6/0.56=0.86 π(|)=p(|)π()m() =0.2 ×0.6/0.44=0.27 π(|)=0.14 π(|)=0.73 正规型分析 ①策略: = () =() r(π, )=l (,())p(|)π() 4-7 = l (,)p(|)π()+l (,)p(|)π() + l (,)p(|)π()+l (,)p(|)π() =0.62×0.8×0.6+1.0 ×0.2×0.6+0.19 ×0.2×0.4+0.0× 0.8×0.4 =0.4328 ②策略: =() =() r(π, )=l (, ())p(|)π() = l (,)p(|)π()+l (,)p(|)π() + l (,)p(|)π()+l (,)p(|)π() = 0.62×0.2×0.6+1.0×0.8×0.6+0.19×0.8× 0.4+0.0×0.8× 0.4 =0.6152 ③策略: = () =() r(π, )=0.45 ④策略: =() =() r(π, )=0.6 ∵r(π, ) <r(π, ) <r(π, ) <r(π, ) ∴ ((( 是贝叶斯行动。  4-82.扩展型之一:据(2’) : l(θ,δ(x)) f(x |θ)π(θ) dθ 记作r’ ①给定(预报干旱): 采用 r‘=l (,)p(|)π() = l (,)p(|)π() + l (,)p(|)π() = 0.62×0.8×0.6+0.19 ×0.2×0.4 =0.3128 采用 r’= l (,)p(|)π() + l (,)p(|)π() =0.48 ∵风险小者优 ∴给定应选 ②给定(预报天气正常) 采用 r’= l (,)p(|)π() + l (,)p(|)π() =0.62×0.2×0.6 + 0.19× 0.8× 0.4 =0.135 采用 r’= l (,)p(|)π() + l (,)p(|)π() =1.0×0.2×0.6 + 0 =0.12 ∴给定应选 由此得形式Bayes规则 : = () =() 3.扩展型之二:据(3)式 即l(,a) π(|x) dθ 或 l(,a)π(|x)(记作r”) ①给定, 采用 r”= l(,)π(|) = l(,)π(|) + l(,)π(|) =0.62 ×0.86 + 0.19 ×0.14 =0.56 采用 r”= l(,)π(|) + l(,)π(|) = 1.0 ×0.86 + 0× 0.14 =0.86 ∴给定,应选行动. ②给定 采用 r”= l(,)π(|) = l(,)π(|) + l(,)π(|) =0.62 ×0.27 + 0.19 ×0.73 = 0.3061 采用 r”= l(,)π(|) = l(,)π(|) + l(,)π(|) =1.0 ×0.27 + 0 ×0.73 =0.27 ∴给定  应选择行动. ∴形式Bayes规则: = () =() §4.5 非正常先验与广义贝叶斯规则 一、非正常先验(Improper Prior) 概率测度的三个条件: i,规范性:P(Ω)=1 ii,非负性:0≤P(A)≤1 iii,可列可加性 在设定先验分布时,若不满足规范性,则称为非正常先验. 二、广义贝叶斯规则(General Bayesean Rule) 1.定义: 决策问题的损失函数为l(θ,a),π(θ)为非正常先验分布,对给定的,使 i, l(θ,δ(x)) f(x |θ)π(θ) dθ 为极小,或者 ii, 0<m(x)<-∞时,使 l(,a) π(|x) dθ 为极小的策略(行动),构成广义贝叶斯规则. 2.Nole:①在许多重要场合,所有允许的都是GBR ②在无法得到正常先验时,除此别无良策; ③GBR不一定是最好的决策规则 §4.6 一种具有部分先验信息的贝叶斯分析法 一、概述 1.思路:在部分先验信息难以唯一地确定π(θ)时,抛开唯一性要求,转而确定与已知先验 信息相符的先验分布的集。 2.符号 i, Θ 和A为有限集:Θ={,,…,} A={,,…,} 损失矩阵L={} =l (,) ii,根据贝叶斯分析的扩展型 给定x,应从集合A中选一行动 ,使 q(a)= l (,a) p(|)π() 为极小,亦即 = arg q(a) 或 q()≤q() j=1,2,…,m (4) 则 为贝叶斯行动. 记p(|)为(x) , π() 为 (=[,,…,] π={,,…,} 则 l (,a) p(|)π()=([diag{(x) }π] (4)式可表示成 ([diag{(x)}π]≤([diag{(x) }π] i=1,2, …,n (5) j=1,2, …,m (5)式即 [ (L-1 () diag{(x) }] π ≥0 (5’) 记 (L-1 () diag{(x) } 为D(x), 式(5’)可表示为: D(x) π ≥0 (5”) 3. (5”)式的含义 (1)给定x,先验分布为π时,应选  使5(即5’, 亦即5”)式成立。 对给定的x,要使  成为贝叶斯行动,π应满足 5(即5’, 亦即5”)式. 由(2)可以定义 (x)={ π∈Π| D(x) π ≥0 ;, ≥0 } 式中, Π是先验分布的所有可能的集, (x) 是Π的一个子集,它能i,使 对给定x为Bayes行动 ii,满足规范性和非负性 二、分析步骤 1. 确定(x) 2. 确定先验信息对先验分布π(θ)的约束: Q={ π∈Π| Aπ≥0, , ≥0} 式中, Aπ≥0是先验信息对先验分布π(θ)的约束. 3.结论: 当 (x) 与Q有非空交集时,为Bayes行动. 三、例 已知:i, Q={ π∈Π| ≥0.5, ≥, ≥, } ii,由已往的统计资料,三种病患者的白血球计数: f(x| )= N( 3000, 1000 ) f(x| )= N( 3000, 1000 ) f(x| )= N( 3000, 1000 ) iii,观察:x=5000 要求判定:患者得什么病 解:p(x|)= p(5000|) = edx 令x= = edx =0.9798 - 0.9744 = 0.0054 同理可得: p(x| )=0.0091 p(x| )=0.0000105 ∵L= , 1 =  , ∴L-1 = , diag{(x)}= D=  D(5000)( π≥0 即≥ ∴(5000)= { π∈Π| -1.69 ≥0, -0.00315≥0, } 同理可得(5000)和 (5000) 三、几何意义 由  2.Q: 由先验信息确定红框内为Q  3.从 D(x) π ≥0 得,, .