上一页 下一页湘潭大学数学与计算科学学院 1
§ 4.2 贝叶斯估计
在一个统计决策问题中,可供选择的决策函
数往往很多,自然希望寻找使风险最小的决策函
数,然而在这种意义下的最优决策函数往往是不
存在的。 这是因为风险函数
(,)Rd ?
是既依赖于参

?
又依赖于决策函数 d 的二元函数,它往往会
使得在某些
?
处决策函数 1
d
的风险函数值较小;
而在另一些 ? 处决策函数 2d 的风险函数值较小。 要
解这个问题,就要建立一个整体指标的比较准则。
上一页 下一页湘潭大学数学与计算科学学院 2
贝叶斯方法 通过引进先验分布把两个风险函数
的点点比较转化为用一个整体指标的比较来代替,
从而可以决定优劣。
一、先验分布与后验分布
在前一章讨论参数估计问题时,我们都是把待参数 ?
视为参数空间 ? 中的一个未知常数(或常数向量),在估
计时仅利用样本所提供的关于总体的信息,而没有利用
关于 ? 的其他任何信息。 然而在许多实际问题中,往往在
抽样前便对参数
?
有所了解,这种在抽样前对未知参数 ?
所了解的信息,称为 先验信息 。
上一页 下一页湘潭大学数学与计算科学学院 3
例 4.6 某学生通过物理实验确定当地的重力加
速度,测得如下数据
2
( / )ms,
9.8 0, 9.7 9, 9.7 8, 6.8 1, 6.8 0 。
问如何估计当地的重力加速度?
如果用样本均值 8, 5 9 6x ? 来估计,你一定会认为这个结
果很差,这是因为在未做实验之前你对重力加速度已
有了一个先验的认识,比如你已经知道它大 致在 9.8 0
左右,误差最大不超过 0,1 。 因此,参数的先验信息对
于正确估计参数往往是有益的。
上一页 下一页湘潭大学数学与计算科学学院 4
要利用参数 ? 的先验信息,通常是将 ? 看作在参
数空间 ? 中取值的随机变量。
在实际中这种作法可以有 两种理解,
一是从某一范围考察,参数确是随机的,如用
p
表示
某工厂每日的废品率,尽管从某一天看,
p
确是一个
未知常数,但从数天或更长一段时间看,每天的
p

有一定变化,一般来说
p
的变化范围呈现一定的分布
规律,我们可以利用这种分布规律来作为某日废品率估
计的先验信息;
上一页 下一页湘潭大学数学与计算科学学院 5
另一种理解是参数可能确是某一常数,但人们无法知道
或无法准确地知道它,只可能通过它的观测去集训它,
像例 4,6 中的当地重力加速度,这时,我们不妨把它看
成一个随机变量,认为它所服从的分布可以通过它的先
验知识获得。
例如,可以认为当地的重力加速度服从正态分布
2
( 9,80,0,1 )N 。 这一观点在实际中是很有用处的。它将
使我们能够充分地利用参数的先验信息对参数作出
更准确的估计。
上一页 下一页湘潭大学数学与计算科学学院 6
贝叶斯估计方法 就是把未知参数 ? 视为一个具有已知分
布 ()?? 的随机变量,从而将先验信息数学形式化并加以
利用的一种方法,通常 ()?? 为先验分布。 先验分布 ()?? 与
其他分布一样也有离散型和连续型之分,这要视
?
是离散
型随机变量还是连续型随机变量而定。
设总体 X 的分布密度为 (,),px ?? ??, ? 的先验分布为
()??,由于 ? 为随机变量并假定已知 ? 的先验分布,所
以总体 X 的分布密度
(,)px ?
应看作给定 ? 时 X 的条
件分布密度,于是总体 X 的分布密度
(,)px ?
需改用
( | )px ?
来表示。
上一页 下一页湘潭大学数学与计算科学学院 7
设 1(,,)nX X X? L 为取自总体 X 的一个样本,当给定样
本值 1(,,)nx x x? L 时,样本 1(,,)nX X X? L 的联合密度为
1
1
(,,| ) ( | )
n
ni
i
q x x p x??
?
? ?L
,
由此,样本 X 和 ? 的联合概率分布为
(,) ( | ) ( )f x q x? ? ? ?? 。
由乘法公 式知
(,) ( ) ( | ) ( ) ( | )f x q x m x h x? ? ? ? ??? 。
于是有
( ) ( | )
( | ),( )
()
qx
hx
mx
? ? ?
??? ? ?
,( 4.8 )
上一页 下一页湘潭大学数学与计算科学学院 8
称 ( | )hx ? 为给定样本 Xx ? 时,? 的 后验分布,它是给定
样本后 ? 的 条件分布 。
其中 ()mx 是 (,)X ? 关于样本 X 的边缘分布。
如果 ? 是连续型随机变量,则
( ) ( | ) ( )m x q x d? ? ? ?
?
? ?

如果 ? 是离散型随机变量,则
( ) ( | ) ( )m x q x
?
? ? ?? ?

贝叶斯估计方法认为后验分布集中体现了样本和先验
分布两者所提供的关于总体信息的总合,因而估计应
建立在后验分布的基础上来进行。
上一页 下一页湘潭大学数学与计算科学学院 9
例 4.7 为了提高某产品的质量,公司经理考虑增加
投资来改进生产设备,预计需投资 90 万元,但从投资
效果看,顾问们提出了两种不同意见,
1
?
:改进生产设备后,高质量产品可占 90%,
2
?
:改进生产设备后,高质量产品可占 70% 。
经理当然希望 1? 发生,公司效益可得到很大提高,投
资改进设备也是合算的。
但根据下属二个部门(顾问
们)过去建议被采纳的情况,经理认为 1? 的可信度只
有 40%, 2
?
的可信度是 60%,即
12
( ) 0,4,( ) 0,6? ? ? ???

上一页 下一页湘潭大学数学与计算科学学院 10
这二个都是经理的主观概率。经理不想仅用过去的经验
来决策此事,想慎重一些,通过小规模试验后观其结果
再决定。为此做了一项试验,试验结果(记为 A)如下:
A,试制 5个产品,全是高质量的产品。
经理对这次试验结果很高兴,希望用此试验结果来
修改他原来对 1? 和 2? 的看法,即要求后验概率 1( | )hA?
与 2( | )hA? 。 这可采用 贝叶斯公式 来完成。
现已有先验概率 1()?? 与 2()?? 。 还需要二个条件概率
1( | )PA ? 与 2( | )PA ? 。 由二项分布算 得
55
12( | ) ( 0,9 ) 0,5 9 0,( | ) ( 0,7 ) 0,1 6 8P A P A??? ? ? ? 。
上一页 下一页湘潭大学数学与计算科学学院 11
由全概率公式算得
1 1 2 2( ) ( | ) ( ) ( | ) ( ) 0,33 7P A P A P A? ? ? ? ? ?? ? ? 。
于是可求得后验概率为
1 1 1( | ) ( | ) ( ) / ( ) 0,2 3 6 / 0,3 3 7 0,7 0 0h A P A P A? ? ? ?? ? ?,
2 2 2( | ) ( | ) ( ) / ( ) 0, 1 0 1 / 0, 3 3 7 0, 3 0 0h A P A P A? ? ? ?? ? ? 。
这表明,经理根据试验 A 的信息调整自己的看法,把
1? 与 2? 的可信度由 0, 4 和 0, 6 调整到 0, 7 和 0, 3 。
后者是综合了经理的主观概率和试验结果而获得
的,要比主观概率更有吸引力,更贴近当前实际。
上一页 下一页湘潭大学数学与计算科学学院 12
经过试验 A 后,经理对增加投资改进质量的兴趣增
大,但因投资额大,还想再做一次小规模试验,观其
结果再作决策。
为此又做了一项试验,试验结果(记为 B )如下,
B,试制 10 个产品,有 9 个是高质量产品。
经理对此试验结果更为高兴,希望用此试验结果
对 1? 与 2? 再作一次调整。 为此把上次后验概率看作这次的先验概率,即
12( ) 0,7,( ) 0,3? ? ? ???
上一页 下一页湘潭大学数学与计算科学学院 13
用二项分布算得
9
1
( | ) 1 0 ( 0,9 ) ( 0,1 ) 0,3 8 7PB ? ??
,
9
2
( | ) 10( 0.7 ) ( 0.3 ) 0.1 21PB ? ??,
由此可算得到 ( ) 0.3 07PB ? 和后验概率
12( | ) 0,88 3,( | ) 0,11 7h B h B?? ?? 。
经理看到,经过二次试验,1? (高质量产品可占 9 0 % )
的概率已上升到 0, 8 8 3,到做决策的时候了,他能以
88.3% 的把握保证此项投资能取得较大经济效益。
上一页 下一页湘潭大学数学与计算科学学院 14
三、贝叶斯风险
将参数 ? 视为 ? 上具有先验分布 ()?? 的随机变量
后,风险函数 (,)Rd ? 可写为
(,) [ (,( ) ) ] (,( ) ) ( | )R d E L d X L d x q x d x
?
? ? ? ??? ?
,
它是
?
的函数,仍是随机变量,
它是 ? 的函数,仍是随机变量,关于 ? 再求期望,得
( ) de f [ (,) ] (,) ( )R d E R d R d d? ? ? ? ?
?
? ?, ( 4, 1 0 )
()Rd 称为决策函数 d 在给定先验分布 ()?? 下的贝叶斯
风险,简称 d 的 贝叶斯风险 。
上一页 下一页湘潭大学数学与计算科学学院 15
当总体 X 和 ? 都是连续型随机变量时,上式可写为
( ) (,) ( )R d R d d? ? ? ??? ?
(,( ) ) ( | ) ( )L d x q x d x d? ? ? ? ??? ??
(,( ) ) ( ) ( | )L d x m x h x d x d? ? ??? ??
? ?( ) (,( ) ) ( | )m x L d x h x d d x? ? ??? ??
当总体 X 和 ? 都是离散型随机变量时,有
( ) ( ) (,( ) ( | ) )
x
R d g x L d x h x
?
????? ??
????
上一页 下一页湘潭大学数学与计算科学学院 16
由上式可见,贝叶斯风险可看作是随机损失
函数
(,( ))L d X?
求两次期望而得到的,即第一次先

?
的后验分布求期望,第二次关于样本
X
的边
缘分布求期望。此时,由于
()Rd
已不依赖于参数
?
而仅依赖于决策函数
()dX
,因此,以贝叶斯风
险的 大小作为衡量决策优劣的标准是合理的。
上一页 下一页湘潭大学数学与计算科学学院 17
四、贝叶斯估计
1.贝叶斯点估计
定义 4,6 设总体 X 的分布函数 (,)Fx ? 中参数 ? 为
随机变量,
()??

?
的先验分布。 若在决策函数类 中
存在一个决策函数
*
()dX
,使得对决策函数类 中任一决
策函数
()dX
,均有
*
( ) i n f ( ),
d
R d R d d? ? ?
,
则称
*
()dX
为参数
?
的 贝叶斯估计量 。
上一页 下一页湘潭大学数学与计算科学学院 18
由定义可见,贝叶斯估计量
*
()dX 就是使贝叶斯风险
()Rd 达到 最小的决策函数 。应该注意,贝叶斯估计量
是依赖于先验分布 ()?? 的,即对于不同的 ()??, ? 的
贝叶斯估计量是不同的,在常用损失函数下,贝叶斯
估计有如下几个结论。
定理 4.2 设 ? 的先验分布为 ()?? 和损失函数为
2
(,) ( )L d d?? ??
则 ? 的贝叶斯估计是
( ) ( | ) ( | )d x E X x h x d? ? ? ?
?
? ? ? ?
,( 4.1 1 )
其中
( | )hx ?
为参数
?
的后验密度。
上一页 下一页湘潭大学数学与计算科学学院 19
证明 由于
? ?
2
( ) ( ) [ ( )] ( | ) m i nR d m x d x h x d d x? ? ?
?
? ? ???

2
[ ( ) ] ( | ) m i n,d x h x d a s? ? ?
?
???
是等价的。

2[ ( ) ] ( | )d x h x d? ? ?
? ??
2[ ( | ) ( | ) ( ) ] ( | )E x E x d x h x d? ? ? ? ?
?? ? ? ??
2[ ( | ) ] ( | )E x h x d? ? ? ?
????
2[ ( | ) ( ) ] ( | )E x d x h x d? ? ?
????
2 [ ( | ) ] [ ( | ) ( ) ] ( | )E x E x d x h x d? ? ? ? ??? ? ??
上一页 下一页湘潭大学数学与计算科学学院 20
其中
( | ) ( | )E x h x d? ? ? ???@

[ ( | ) ] [ ( | ) ( ) ] ( | )E x E x d x h x d? ? ? ? ?? ???
[ ( | ) ( ) ] [ ( | ) ] ( | )E x d x E x h x d? ? ? ? ??? ? ??
[ ( | ) ( ) ] [ ( | ) ( | ) ] 0E x d x E x E x? ? ?? ? ? ?故
2[ ( ) ] ( | )d x h x d? ? ?
? ??
2[ ( | ) ] ( | )E x h x d? ? ? ?
????
2[ ( | ) ( ) ] ( | )E x d x h x d? ? ?
????
显然,当 ( ) ( | ) a.d x E x s?? 时,()Rd 达到最小。
上一页 下一页湘潭大学数学与计算科学学院 21
定理 4,3 设 ? 的先验分布为 ()??,取损失函数为加权
平方损失函数
2
(,) ( ) ( )L d d? ? ? ???
则 ? 的贝叶斯估计是
*
( ( ) | )
()
[ ( ) | ]
Ex
dx
Ex
? ? ?
??
?
?

本定理的证明与定理 4.2类似,这里 略去不证 。
上一页 下一页湘潭大学数学与计算科学学院 22
定理 4,4 设参数 ? 为随机向量,1
(,,)
p
? ? ?? L
,对
给定的先验分布 ()?? 和二次损失函数
(,) ( ) ( )L d d Q d? ? ?? ? ?
,
其中 Q 为正定矩阵,则 ? 的贝叶斯估计为后验分布
( | )hx ?
的均值向量,即
1
*
2
( | )
( ) ( | )
( | )
Ex
d x E x
Ex
?
?
?
??
??
??
??
????
M
上一页 下一页湘潭大学数学与计算科学学院 23
这个结论表明,在正定二次损失下,? 的贝叶斯估
计不受正定矩阵 Q 的选取的干扰,这一特性常被为 ?
的贝叶斯估计关于 Q 是稳健的。
证明 在二次损失下,任一个决策函数向量
1( ) ( ( ),,( ) )pd x d x d x? L 的后验风险为
[ ( ) ( ) | ]E d Q d x????
* * * *[ ( ( ) ( ) ) ( ( ) ( ) ) | ]E d d d Q d d d x??? ? ? ? ? ? ?
* * * *( ) ( ) [ ( ) ( ) | ]d d Q d d E d Q d x??? ? ? ? ? ?
上述最后一个等式考虑到
*( | ) 0E d x???
。上式的第二项
为常量,而第一项非负,故使上式最小仅需
* ()d d x?

可。证毕。
上一页 下一页湘潭大学数学与计算科学学院 24
定义 4,7 设 ()d d x? 为决策函数类 中任一个决策函数,
损失函数为 (,( ))L d x?,则 (,( ))L d x? 对后验分布 ( | )hx ? 的数
学期望称为 后验风险,记为
( | ) [ (,( ) ) ]R d x E L d x??
(,( ) ) ( | ),
(,( ) ) ( | ),ii
i
L d x h x d
L d x h x
? ? ? ?
? ? ?
?
??
? ?
??
?
?
当 为 连 续 型 变 量,
当 为 离 散 型 变 量 。
上一页 下一页湘潭大学数学与计算科学学院 25
例如在 中存在这样一个决策函数
*
()dx,使得
? ? ? ?,|i n f|* xdRxdR
d
?
则称
*
()dx
为该统计决策问题在后验风险准则下的 最
优决策函数,或称为 贝叶斯(后验型)决策函数 。 在估计问题中,它又称为 贝叶斯(后验型)估计 。 下
面定理给出了贝叶斯决策函数
*
()dx 与贝叶斯后验型决
策函数
**
()dx 的 等价性 。
上一页 下一页湘潭大学数学与计算科学学院 26
定理 4,5 对给定的统计决策问题(包括先验分布给定的
情形)和决策函数类,当贝叶斯风险满足如下条件
i n f ( ),
d
R d d? ? ? ?
,
则贝叶斯决策函数
*
()dx
与贝叶斯后验型决策函数
**
()dx
是等价的。 即使后验风险最小的决策函数
**
()dx
同时也使
贝叶斯风险最小。 反之使贝叶斯风险最小的决策
*
()dx

时也 使后验风险最小。
定理 4, 6 设 ? 的先验分布为 ()??,损失函数为绝对值损失
(,)L d d?? ??,
则 ? 的贝叶斯估计
*
()dx 为后验分布 ( | )hx ? 的中位数。
上一页 下一页湘潭大学数学与计算科学学院 27
证明 设 m 为 ( | )hx ? 的中位数,又设 ()d d x? 为 ? 的
另一估计。
为确定起见,先设 dm ? 。由绝对损失函数
的定义可得
,,
(,) (,) 2 ( ),,
,,
m d m
L m L d m d m d
d m d
?
? ? ? ?
?
???
?
? ? ? ? ? ??
? ??
?
当 md ??? 时,上式中
2 ( ) 2 ( )m d d m d d m? ? ? ? ? ? ? ? 。
所以上式为
,,(,) (,)
,,
m d mL m L d
d m m
???
?
?????
? ??
?
上一页 下一页湘潭大学数学与计算科学学院 28
于是对 dm ? 有
( | ) ( | )R m x R d x?
类似的,对 dm ? 亦可证得上述不等式成立。
这就表明后验分布中位数 m 是使后验风险最小,故
m 是 ? 的贝叶斯估计。 证毕。