第三节 置信区间
前面讨论了参数的点估计,它是用样本算出的一个值去估计未知参数,即点估计值仅仅是未知参数的一个近似值,它没有给出这个近似值的误差范围.
例如,在估计某湖泊中鱼的数量的问题中,若根据一个实际样本,利用最大似然估计法估计出鱼的数量为50000条,这种估计结果使用起来把握不大,实际上,鱼的数量的真值可能大于50000条,也可能小于50000条.且可能偏差较大.
若能给出一个估计区间,让我们能较大把握地(其程度可用概率来度量之)相信鱼的数量的真值被含在这个区间内,这样的估计显然更有实用价值.
本节将要引入的另一类估计即为区间估计,在区间估计理论中,被广泛接受的一种观点是置信区间,它由奈曼(Neymann)于1934年提出的.
分布图示
★ 引言 ★ 置信区间的概念
★ 寻求置信区间的方法
★ 例1 ★ 例2 ★ 例3
★ 分布参数的区间估计 ★ 例4
★ 单侧置信区间
★ 例5 ★ 例6
★ 内容小结 ★ 课堂练习
★ 习题6-3
★ 返回
内容要点一、置信区间的概念定义1 设为总体分布的未知参数,是取自总体X的一个样本,对给定的数,若存在统计量

使得

则称随机区间为的双侧置信区间,称为置信度,又分别称与为的双侧置信下限与双侧置信上限.
注,1,置信度的含义,在随机抽样中,若重复抽样多次,得到样本的多个样本值,对应每个样本值都确定了一个置信区间,每个这样的区间要么包含了的真值,要么不包含的真值,根据伯努利大数定理,当抽样次数充分大时,这些区间中包含的真值的频率接近于置信度(即概率) ,即在这些区间中包含的真值的区间大约有个,不包含的真值的区间大约有个,例如,若令,重复抽样100次,则其中大约有95个区间包含的真值,大约有5个区间不包含的真值.
2,置信区间也是对未知参数的一种估计,区间的长度意味着误差,故区间估计与点估计是互补的两种参数估计.
3,置信度与估计精度是一对矛盾.置信度越大,置信区间包含的真值的概率就越大,但区间的长度就越大,对未知参数的估计精度就越差,反之,对参数的估计精度越高,置信区间长度就越小,包含的真值的概率就越低,置信度越小,一般准则是,在保证置信度的条件下尽可能提高估计精度.
二、寻求置信区间的方法寻求置信区间的基本思想,在点估计的基础上,构造合适的函数,并针对给定的置信度导出置信区间,
一般步骤:
(1) 选取未知参数的某个较优估计量;
(2) 围绕构造一个依赖于样本与参数的函数

(3) 对给定的置信水平,确定与,使

通常可选取满足的与,在常用分布情况下,这可由分位数表查得;
(4) 对不等式作恒等变形化后为
,
则就是的置信度为的双侧置信区间。
三、(0—1)分布参数的置信区间考虑(0—1)分布情形,设其总体X的分布率为

现求p的置信度为置信区间.
已知(0—1)分布的均值和方差分别为

设是总体X的一个样本,由中心极限定理知,当n充分大时,

近似服从分布,对给定的置信度,则有

经不等式变形得

其中 解式中不等式得

其中 
于是可作为p的置信度为的置信区间.
四、单侧置信区间前面讨论的置信区间称为双侧置信区间,但在有些实际问题中只要考虑选取满足或 的与,对不等式作恒等变形后化为
 或 
从而得到形如或的置信区间.
例如,对产品设备、电子元件等来说,我们关心的是平均寿命的置信下限,而在讨论产品的废品率时,我们感兴趣的是其置信上限,于是我们引入单侧置信区间.
定义 设为总体分布的未知参数,是取自总体X的一个样本,对给定的数,若存在统计量

满足 
则称为的置信度为的单侧置信区间,称为的单侧置信下限; 若存在统计量

满足 
则称为的置信度为的单侧置信区间,称为的单侧置信上限.
例题选讲
寻求置信区间的方法例1(E01) 设总体为已知,为未知,设是来自X的样本,求的置信水平为的置信区间,
解 已知是的无偏估计,且 而不依赖于任何未知参数,按标准正态分布的双侧分位数的定义,有 即

这样,就得到了的一个罡信水平为的置信区间 常写成
若取 即 及 查表得 则得到一个置信水平为0.95的置信区间
若由一个样本值得样本均值的观察值 则进一步得到一个置信水平为0.95的置信区间
这个区间的含义是,若反复抽样多次,每个样本值均确定一个区间,在这些区间中,包含的约占95%,或者说该区间属于包含的区间的可信程度为95%.
例2 设总体 为未知参数,是取自总体X的简单随机样本,如果以区间作为的置信区间,那么置信度是多少?
解  所以
从而 依题意 即

所求的置信度为96.6%.
例3 设总体X的密度为

未知参数为取自X的样本.
(1) 试证
(2) 试求的置信区间.
解 (1) 记 设的分布函数与密函数分别为与 则

这里 于是

即 从而 又由分布的可加性得
 而 故
(2) 由上节例7知,是的最大似然估计,从出发考虑 由(1)知的分布只依赖于样本容量 即 给定的 由

经不等式变形得
于是,所求置信区间为
(0—1)分布参数的置信区间例4(E02) 设抽自一大批产品的100个样品中,得一级品60个,求这批产品的一级品率p的置信水平为0.95的置信区间.
解 一级品率是分布的参数,此处
 
现按上述方法来求的置信区间,其中
  
于是  故得的一个置信水平为0.95的近似置信区间为
单侧置信区间例5 (E03) 从一批灯泡中随机地抽取5只作寿命试验,其寿命如下(单位:h)
1 050 1 100 1 120 1 250 1 280
已知这批灯泡寿命 求平均寿命的置信度为95%的单侧置信下限.
解  对于给定的置信度 有
即
可得的置信度为的单侧置信下限为
由所得数据计算,有    查表得
所以的置信度为95%的置信下限为 也就是说,该批灯泡一平均寿命至少在1064.56h以上,可靠程度为95%.
例6 假设总体 从总体X中抽取容量为10的一个样本,算得样本均值 样本标准差,求未知参数的置信水平为0.95的单侧置信区间的下限.
解 由题设知 即 令
即 
故置信水平为0.95的单侧置信区间下限为
课堂练习
1,为考虑某种香烟的尼古丁含量(以mg计),抽取了8支香烟并测得尼古丁的平均含量为 设该香烟尼古丁含量,试求的单侧置信上限,置信度为0.95.