第二章 主观概率和先验分布
Subjective Probability and Prior Distribution
本章主要参考文献:60,52,上帝怎样掷骰子
§2-1 基本概念
一、概率(probability)
1,频率
fn(A)==Na/N
P (A)== fn(A) … 古典概率的定义
2, Laplace在《概率的理论分析》(1812)中的定义
P(A)==k/N
式中,k为A所含基本事件数,
N为 基本事件总数
适用条件 1.基本事件有限
2.每个基本事件等可能
3.公理化定义
E是随机试验,S是E的样本空间,对E的每一事件A,对应有确定实数P(A),若满足:
① 非负性:0≤P(A)≤1
② 规范性,P(S)=1
③可列可加性:对两两不相容事件Ak (k=1,2…) (Ai∩ Aj=φ)
P(∪Ak)=∑P(Ak)
则称P(A)为事件A发生的概率
二、主观概率(subjective probability,likelihood)
1,为什么引入主观概率
。有的自然状态无法重复试验
如:明天是否下雨
新产品销路如何
明年国民经济增长率如何
能否考上博士生
。试验费用过于昂贵、代价过大
例:洲导弹命中率
战争中对敌方下一步行动的估计
2.主观概率定义:合理的信念的测度
某人对特定事件会发生的可能的度量。
即他相信(认为)事件将会发生的可能性大小的程度。
这种相信的程度是一种信念,是主观的,但又是根据经验、各方而后知识,对客观情况的了解进行分析、推理、综合判断而设定(Assignment)的,与主观臆测不同。
例:考博士生、掷硬币、抛图钉
三、概率的数学定义对非空集Ω,元素ω,即Ω={ω},F是Ω的子集A所构成的σ-域(即Ω∈F;
若A∈F则A∈F;
若Ai∈F i=1,2,…则∪Ai∈F)
若P(A)是定在F上的实值集函数,它满足
① 非负性 P(A)≥0
② 规范性 P(Ω)=1
③可列可加性
则称P(A)为直的(主以或客观)概率测度,简称概率
ω为基本事件
A为事件
三元总体(Ω,F,P)称为概率空间
注意:主观概率和客观概率(objective probability)有相同的定义
四、主客观概率的比较
(一) 基本属性:
O:系统的固有的客观性质,在相同条件下重复试验时频经的极限
S:概率是观察者而非系统的性质,是观察者对对系统处于某状态的信任程度
(二)抛硬币:正面向上概率为1/2
O:只要硬币均匀,抛法类似,次数足够多,正面向上的概率就是1/2,这是简单的定义。
S:这确是定义,DMer认为硬币是均匀的,正、反面出现的可能性(似然率)相同,1
/2是个主观的量。
(三)下次抛硬币出现正面的概率是1/2
O:这种说法不对,不重复试验就谈不上概率
S:对DMer来说,下次出现正、反是等可能的。但是他不是说硬币本身是公正的,它可能会有偏差,就他现有知识而言,没有理由预言一面出现的可能会大于另一面,但多次抛掷的观察结果可以改变他的信念。
O、S:下次抛硬币出现正面还是反面不能确定,但知道:
要么是正面,要么是反面。
§2-2 先验分布(Prior distribution)及其设定
在决策分析中,尚未通过试验收集状态信息时所具有的信息叫先验信息,由先验信息所确定的概率分布叫先验分布。
设定先验分布是Bayesean分析的需要.
一、设定先验分布时的几点假设
1.连通性(Connectivity),又称可比性
即事件A和B发生的似然性likelihood是可以比较的:
A(>L B或A (L B或B(>L A 必有一种也仅有一种成立.
** A(>L B读作 A 发生的似然性大于B 发生的似然性,
A (L B 读作 A 发生的似然性与B 发生的似然性相当。
2.传递性(Transitivity)
若对事件A,B,C,A (>L B,B (>L C 则A (>L C
3,部分小于全体:若AB则B(L A
例:设定明年国民经济增长率时:
①A:8~11% B:12~15% C:15~20%
若 A (>L B,B (>L C,则 A (>L C
② A:8~11% D:8~10% 必有D (>L A
二、离散型随机变量先验分布的设定
1.对各事件加以比较确定相对似然率
例1,考博士生 E:考取 E:考不取
若P(E)=2P(E) 则P(E)=2/3 P(E)=1/3
例2。某地气候状况:正常年景θ1,旱θ2,涝θ3
正常与灾年之比:3∶2 则P(θ1)=0.6
水旱灾之比1∶1 P(θ2)=P(θ3)=0.2
该法适用于状态数较少的场合
2.打赌法设 事件E发生时收入P,(0 <P <1) 且 E\c=(1—P)
调整P,使决策人感到两者无差异为止,则:P(E)=P
三、连续型RV的先验分布的设定
1.直方图法
·该法适用于θ取值是实轴的的某个区间的情况
·步骤:①,将区间划分子区间θi…离散化
②设定每个子区间的似然率π(θi)…赋值
③变换成概率密度曲线例如:明年国民经济的增长率
·缺点:①子区间的划分没有标准
②赋值不易
③尾部误差过大
2.相对似然率法
·适用范围:同1
步骤:①离散化
②赋值:给出各区间似然的相对比值
③规范化,
例如:同1
A,相对似然率R 似然率π(A)
子区间8~9% 10 10/ΣR
7~8 9 9/ΣR
9~10 7.5 7.5/ΣR
B,决策者给出每二个状态似然率的比例关系
aij= pi/pj (1)
应有
aij= 1/aji (2)
aij=aik.akj (3)
在(3)式不满足时,可用最小二乘法估计决策人心目中真正的主观概率分布Pi i=1,…,n
即求规划问题
min{∑∑(aijpj - pi)}
s.t,∑pi= 1,pi≥0
*用拉格朗日乘数法,构造拉格朗日函数
L=
上式对,i=1,2…n求偏导数,并令其为0,得:
l=1,2,…,n.
与 联列,构成n+1阶齐次方程组,求得Pi,i=1,…,n
3.区间对分法
·适用范围:可以是开区间
·步骤:①求中位
②确定上、下四分位点(quartile fractile)
③由于误差积累,最多确定八分位点(Eighth fractile)
例:产品销售量(预计明年)
·缺点:精度差
4.与给定形式的分布函数相匹配
这是最常用,且常常被滥用的方法
·步骤:①选择一个与先验信息匹配得最好的函数
如正态,泊松,β,e-Cauchy分布等例:a)在单位时间以恒常的平均比率入出现,则在T单位长度时间内该事件出现的次数服从Poisson分布
2-4
b)若影响某一随机变量的因素很多而每一因素的作用均不显著,则该变量服从正态分布。例如,测量误差,弹落点,人的生理特征的度量,农作物产量等均服从正态分布。
c)事件A出现的概率为P,n次独立试验出现r次A的概率b(p,r,n)= ,即服从二项分布。
②参数估计:
A.矩法:N(μ,σ) Be(α,β)
·缺点:尾部估计不准,但对矩的影响却很大
B.分位数:利用几个分位点和现成的概率密度
函数分位数表,估计参数并检验。
5,概率盘法(dart)
用园盘中的扇形区表示抽奖事件,透用于西方管理人员
·注意:状态的概率或概率分布不是也不应富由决策分析人员来设定,而应当由决策人和有关问题专家提供基本信息。
理由:
§2-3 无信息先验分布一、为什么要研究无信息先验
·Bayesean法需要有先验分布,贝叶斯法的简明性使人在无信息时也想用它。
二、如何设定无信息先验分布
1.位置参数
随机变量X的概率密度函数形如f(x-θ)时θ∈ 称为位置参数
其无信息先验 π(θ)必为一常数
2.标度参数
X的密度函数为1/σf(x/σ)σ>称为标度密度σ称为标度参数
其无信息先验π(σ)=1/σ
§2.4 利用过去的数据设定先验分布一、有θ的统计数据
为能获得θ的观察值θi i=1,…,n的数据,则可:
①通过直方图勾划出先验分布
②选取可能的函数形式作为先验分布,再定参数
③求频率(离散RV)
二、状态θ不能直接观察时
若直接观察的只是与有关的(通常都是如此)则要从中获取的先验信息很困难:的分布是随边缘分布m(.)而定的:
m(x)= 或m(x)=
X、Θ的联合密度是h(x,θ)=f(x|θ)μ(θ)
由估计m(x)不难,但即使f(x|θ)已知,由此估计μ(θ)就难得多。
Subjective Probability and Prior Distribution
本章主要参考文献:60,52,上帝怎样掷骰子
§2-1 基本概念
一、概率(probability)
1,频率
fn(A)==Na/N
P (A)== fn(A) … 古典概率的定义
2, Laplace在《概率的理论分析》(1812)中的定义
P(A)==k/N
式中,k为A所含基本事件数,
N为 基本事件总数
适用条件 1.基本事件有限
2.每个基本事件等可能
3.公理化定义
E是随机试验,S是E的样本空间,对E的每一事件A,对应有确定实数P(A),若满足:
① 非负性:0≤P(A)≤1
② 规范性,P(S)=1
③可列可加性:对两两不相容事件Ak (k=1,2…) (Ai∩ Aj=φ)
P(∪Ak)=∑P(Ak)
则称P(A)为事件A发生的概率
二、主观概率(subjective probability,likelihood)
1,为什么引入主观概率
。有的自然状态无法重复试验
如:明天是否下雨
新产品销路如何
明年国民经济增长率如何
能否考上博士生
。试验费用过于昂贵、代价过大
例:洲导弹命中率
战争中对敌方下一步行动的估计
2.主观概率定义:合理的信念的测度
某人对特定事件会发生的可能的度量。
即他相信(认为)事件将会发生的可能性大小的程度。
这种相信的程度是一种信念,是主观的,但又是根据经验、各方而后知识,对客观情况的了解进行分析、推理、综合判断而设定(Assignment)的,与主观臆测不同。
例:考博士生、掷硬币、抛图钉
三、概率的数学定义对非空集Ω,元素ω,即Ω={ω},F是Ω的子集A所构成的σ-域(即Ω∈F;
若A∈F则A∈F;
若Ai∈F i=1,2,…则∪Ai∈F)
若P(A)是定在F上的实值集函数,它满足
① 非负性 P(A)≥0
② 规范性 P(Ω)=1
③可列可加性
则称P(A)为直的(主以或客观)概率测度,简称概率
ω为基本事件
A为事件
三元总体(Ω,F,P)称为概率空间
注意:主观概率和客观概率(objective probability)有相同的定义
四、主客观概率的比较
(一) 基本属性:
O:系统的固有的客观性质,在相同条件下重复试验时频经的极限
S:概率是观察者而非系统的性质,是观察者对对系统处于某状态的信任程度
(二)抛硬币:正面向上概率为1/2
O:只要硬币均匀,抛法类似,次数足够多,正面向上的概率就是1/2,这是简单的定义。
S:这确是定义,DMer认为硬币是均匀的,正、反面出现的可能性(似然率)相同,1
/2是个主观的量。
(三)下次抛硬币出现正面的概率是1/2
O:这种说法不对,不重复试验就谈不上概率
S:对DMer来说,下次出现正、反是等可能的。但是他不是说硬币本身是公正的,它可能会有偏差,就他现有知识而言,没有理由预言一面出现的可能会大于另一面,但多次抛掷的观察结果可以改变他的信念。
O、S:下次抛硬币出现正面还是反面不能确定,但知道:
要么是正面,要么是反面。
§2-2 先验分布(Prior distribution)及其设定
在决策分析中,尚未通过试验收集状态信息时所具有的信息叫先验信息,由先验信息所确定的概率分布叫先验分布。
设定先验分布是Bayesean分析的需要.
一、设定先验分布时的几点假设
1.连通性(Connectivity),又称可比性
即事件A和B发生的似然性likelihood是可以比较的:
A(>L B或A (L B或B(>L A 必有一种也仅有一种成立.
** A(>L B读作 A 发生的似然性大于B 发生的似然性,
A (L B 读作 A 发生的似然性与B 发生的似然性相当。
2.传递性(Transitivity)
若对事件A,B,C,A (>L B,B (>L C 则A (>L C
3,部分小于全体:若AB则B(L A
例:设定明年国民经济增长率时:
①A:8~11% B:12~15% C:15~20%
若 A (>L B,B (>L C,则 A (>L C
② A:8~11% D:8~10% 必有D (>L A
二、离散型随机变量先验分布的设定
1.对各事件加以比较确定相对似然率
例1,考博士生 E:考取 E:考不取
若P(E)=2P(E) 则P(E)=2/3 P(E)=1/3
例2。某地气候状况:正常年景θ1,旱θ2,涝θ3
正常与灾年之比:3∶2 则P(θ1)=0.6
水旱灾之比1∶1 P(θ2)=P(θ3)=0.2
该法适用于状态数较少的场合
2.打赌法设 事件E发生时收入P,(0 <P <1) 且 E\c=(1—P)
调整P,使决策人感到两者无差异为止,则:P(E)=P
三、连续型RV的先验分布的设定
1.直方图法
·该法适用于θ取值是实轴的的某个区间的情况
·步骤:①,将区间划分子区间θi…离散化
②设定每个子区间的似然率π(θi)…赋值
③变换成概率密度曲线例如:明年国民经济的增长率
·缺点:①子区间的划分没有标准
②赋值不易
③尾部误差过大
2.相对似然率法
·适用范围:同1
步骤:①离散化
②赋值:给出各区间似然的相对比值
③规范化,
例如:同1
A,相对似然率R 似然率π(A)
子区间8~9% 10 10/ΣR
7~8 9 9/ΣR
9~10 7.5 7.5/ΣR
B,决策者给出每二个状态似然率的比例关系
aij= pi/pj (1)
应有
aij= 1/aji (2)
aij=aik.akj (3)
在(3)式不满足时,可用最小二乘法估计决策人心目中真正的主观概率分布Pi i=1,…,n
即求规划问题
min{∑∑(aijpj - pi)}
s.t,∑pi= 1,pi≥0
*用拉格朗日乘数法,构造拉格朗日函数
L=
上式对,i=1,2…n求偏导数,并令其为0,得:
l=1,2,…,n.
与 联列,构成n+1阶齐次方程组,求得Pi,i=1,…,n
3.区间对分法
·适用范围:可以是开区间
·步骤:①求中位
②确定上、下四分位点(quartile fractile)
③由于误差积累,最多确定八分位点(Eighth fractile)
例:产品销售量(预计明年)
·缺点:精度差
4.与给定形式的分布函数相匹配
这是最常用,且常常被滥用的方法
·步骤:①选择一个与先验信息匹配得最好的函数
如正态,泊松,β,e-Cauchy分布等例:a)在单位时间以恒常的平均比率入出现,则在T单位长度时间内该事件出现的次数服从Poisson分布
2-4
b)若影响某一随机变量的因素很多而每一因素的作用均不显著,则该变量服从正态分布。例如,测量误差,弹落点,人的生理特征的度量,农作物产量等均服从正态分布。
c)事件A出现的概率为P,n次独立试验出现r次A的概率b(p,r,n)= ,即服从二项分布。
②参数估计:
A.矩法:N(μ,σ) Be(α,β)
·缺点:尾部估计不准,但对矩的影响却很大
B.分位数:利用几个分位点和现成的概率密度
函数分位数表,估计参数并检验。
5,概率盘法(dart)
用园盘中的扇形区表示抽奖事件,透用于西方管理人员
·注意:状态的概率或概率分布不是也不应富由决策分析人员来设定,而应当由决策人和有关问题专家提供基本信息。
理由:
§2-3 无信息先验分布一、为什么要研究无信息先验
·Bayesean法需要有先验分布,贝叶斯法的简明性使人在无信息时也想用它。
二、如何设定无信息先验分布
1.位置参数
随机变量X的概率密度函数形如f(x-θ)时θ∈ 称为位置参数
其无信息先验 π(θ)必为一常数
2.标度参数
X的密度函数为1/σf(x/σ)σ>称为标度密度σ称为标度参数
其无信息先验π(σ)=1/σ
§2.4 利用过去的数据设定先验分布一、有θ的统计数据
为能获得θ的观察值θi i=1,…,n的数据,则可:
①通过直方图勾划出先验分布
②选取可能的函数形式作为先验分布,再定参数
③求频率(离散RV)
二、状态θ不能直接观察时
若直接观察的只是与有关的(通常都是如此)则要从中获取的先验信息很困难:的分布是随边缘分布m(.)而定的:
m(x)= 或m(x)=
X、Θ的联合密度是h(x,θ)=f(x|θ)μ(θ)
由估计m(x)不难,但即使f(x|θ)已知,由此估计μ(θ)就难得多。