第七章
参数估计
2011年 7月 17日
总体 样本抽取部分观察单位
统计量参 数 统计推断
统计推断
statistical inference
?
?
如:样本均数
样本标准差 S
样本率 P
如:总体均数
总体标准差
总体率 ?
X
内容:
1,参数估计
(estimation of
parameters)
包括:点估计与
区间估计
2,假设检验 ( test
of hypothesis)
2011年 7月 17日
第一节 样本均数的标准误
第二节 率的标准误
第三节 两均数之差的可信区间
第四节 两个率之差的可信区间
第五节 小样本率的可信区间
第六 节 中位数与其他分位数的可信区间
2011年 7月 17日
总体 样本抽取部分观察单位
统计量参 数 统计推断
第一节 样本均数的标准误
?
?
如,样本均数
样本标准差 S
样本率 P
如,总体均数
总体标准差
总体率 ?
X
抽样误差
( sampling
error),由
于个体差异导
致的 样本 统计
量与 总体 参数
间的差别。
2011年 7月 17日
一、抽样试验
从正态分布总体 N( 5.00,0.502)中,每
次随机抽取样本含量 n= 5,并计算其均数与
标准差;重复抽取 1000次,获得 1000份样本;计算 1000份样本的均数与标准差,并对
1000份样本的均数作直方图。
按上述方法再做样本含量 n= 10、样本
含量 n= 30的抽样实验;比较计算结果。
2011年 7月 17日
抽样试验( n=5)
2011年 7月 17日
抽样试验( n=10)
2011年 7月 17日
抽样试验( n=30)
2011年 7月 17日
1000份样本抽样计算结果
总体的
均数
总体标
准差 ?
均数的
均数
均数标准差
n=5 5.00 0.50 4.99 0.2212 0.2236
n=10 5.00 0.50 5.00 0.1580 0.1581
n=30 5.00 0.50 5.00 0.0920 0.0913
n?nS
2011年 7月 17日
3个抽样实验结果图示
0
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
4 0 0
4 5 0
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均 数
频数
0
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
4 0 0
4 5 0
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均 数
频数
0
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
4 0 0
4 5 0
3
.
7 1
3.92 4
,1
2
4.33 4
.
5 4
4.74 4
.
9 5
5,
1
5
5.36 5,
5
7
5.77 5,
9
8
6.19
均 数
频数
2 2 1 2.0;5 ?? XSn
0 9 2 0.0;30 ?? XSn
1580.0;10 ?? XSn
2011年 7月 17日
例 7-1 假设正常男子红细胞计数服从的
正态分布总体,从该总体中重复进行 100
次抽样,每个样本的含量为 10,结果见
表 7-1。(书本 PP105)
2011年 7月 17日
由表 7-1可见,从同一总体中随机抽取样
本含量 n=10的若干样本,各样本算得的
样本均数并不等于相应的总体均数,且
各样本均数也不完全相同。这种由于随
机抽样而造成的来自同一总体的样本均
数之间及样本均数与相应的总体均数之
间的差异,称之为均数的抽样误差。
2011年 7月 17日
由于样本均数与相应的总体均数之
间存在着差异,由数理统计推理可
知:从正态总体中随机抽取样本含
量为 n的样本,每抽取一个样本可计
算一个样本均数,重复 100次抽样可
得到 100个样本均数。
2011年 7月 17日
这些样本均数服从均数为,方差为
的正态分布,记作,其中为样本均
数的总体标准差,计算公式为:
( 7-1)
为了与反映个体差异的标准差(或
)相区别,样本均数的标准差用 表
示。
?2X? /
X n???
2011年 7月 17日
统计上通常将统计量(如样本均数
、样本率 p等)的标准差称为标准误
( standard error,SE)。所以,
又称为样本均数的标准误,是反映
样本均数抽样误差大小的指标。
2011年 7月 17日
特点:
1.总体标准误的大小与总体标准差成
正比,与样本含量的平方根成反比。即当样
本含量 n一定时,标准差越大,即样本的个
体差异越大,标准误就越大,样本均数的抽
样误差就越大;标准差越小,标准误就越小
,即样本均数抽样误差就越小。
2.当一定时,n越大,就越小; n越小
,就越大。故影响抽样误差大小的主要因素
是样本含量。作为总体参数(常数)通常是
未知的,因而,在实际工作中常用样本标准
差 S来估计。样本标准误的计算公式为:
2011年 7月 17日
例 7-2 由例 7.1的第二个样本均数
=5.03,S=0.52,n=10,计算均数的
标准误。
解:代入公式 7-2计算,
2011年 7月 17日
抽样实验小结
均数的均数 围绕总体均数上下波动。
均数的标准差 即 标准误 与总体标
准差 相差一个常数的倍数,即
样本 均数的标准误( Standard Error)
=样本标准差 /
从正态总体 N(?,?2)中抽取样本,获得
均数的分布仍近似呈 正态分布 N(?,?2/n) 。
nS=样本含量
nX /?? ?
X?
?
2011年 7月 17日
二、中心极限定理
central limit theorem
① 即使从 非正态总体 中抽取样本,所得均数分布仍近似呈 正态 。
②随着样本量的增大,样本均数的 变异 范围也逐渐变窄。
2011年 7月 17日
一,t分布
?
??? Xu
X
随机变量 X
N( ?,?2)
标准正态分布
N( 0,12)u变换
均数 标准正态分布
N( 0,12)n
Xu
?
???
),( 2 nN ??
1,?????? nv
S
X
nS
Xt
X
?? Student t分布
自由度,n-1
2011年 7月 17日
t分布的概率密度函数
?
? ? 2)1(2 )/1(
)2(
2)1()( ???
?
??? ??
???
? ttf
式中 为伽玛函数; 圆周率( Excel函数为
PI( ))
为自由度( degree of freedom),是 t分布
的唯一参数; t为随机变量。
以 t为横轴,f(t)为纵轴,可绘制 t分布曲线。
?
)(??
2011年 7月 17日
t分布曲线
0, 0
0, 1
0, 1
0, 2
0, 2
0, 3
0, 3
0, 4
0, 4
- 4 - 3 - 2 - 1 0 1 2 3 4
t
f ( t )
自 由 度 为 1 的 t 分 布
自 由 度 为 9 的 t 分 布
标 准 正 态 分 布
t 分布 有如下性质:
①单峰分布,曲线在 t= 0
处最高,并以 t= 0为中心
左右对称
②与正态分布相比,曲线
最高处较矮,两 尾部翘得
高 (见绿线)
③ 随自由度增大,曲线逐
渐接近正态分布;分布的
极限为标准正态分布。
2011年 7月 17日
t分布曲线下面积(附表 2)
双侧 t0.05/2,9= 2.262
=单侧 t0.025,9
单侧 t0.05,9= 1.833
双侧 t0.01/2,9= 3.250
=单侧 t0.005,9
单侧 t0.01,9= 2.821
双侧 t0.05/2,∞ = 1.96
=单侧 t0.025,∞
单侧 t0.05,∞ = 1.64
2011年 7月 17日
二,总体均数的估计
pSX,、
1,总体均数的点估计( point estimation)与区间估计
参数的估计
点估计,由样本统计量
直接估计 总体参数
区间估计,在一定 可信度
( Confidence level) 下
,同时考虑抽样误差
???,、
2011年 7月 17日
均数的估计
统计学中的统计推断包括两个重要的方面:
一是利用样本统计量的信息对相应总体参
数值做出推断,如用样本均数估计总体均
数,用样本标准差 S估计总体标准差等,
称之为估计。另一个是利用样本统计量来
推断我们是否接受一个事先的假设,称之
为假设检验。本章只讨论参数估计,假设
检验将在下一章中讨论。而参数估计又分

点估计与区间估计。
2011年 7月 17日
1.点估计 总体均数的点估计 (point
estimation)就是用样本均数来直接地
估计总体均数,即。这种方法比较
简单,由于没有考虑到抽样误差,
只适合大样本资料的统计推断。
2011年 7月 17日
2.区间估计 总体均数的区间估计
(interval estimation)是利用样本信息
给出一个区间,并同时给出重复试
验时该区间包含总体均数的概率。
具体计算方法如下:
2011年 7月 17日
⑴ 总体标准差未知时 用样本标准差
S作为的估计值计算标准误,按 t分布
原理
⑵总体标准差已知时,或总体标准
差未知但 n足够大,如果总体标准
差已知时,按正态分布原理;当n
足够大时用S作为估计值。
2011年 7月 17日
可信区间的涵义
从总体中作随机抽样,对于含量为 n的每个样本而
言,都可以算得一个区间。以 95%的可信区间为
例,意味着在同一总体中作 100次重复抽样,可得
100个可信区间,平均有 95个可信区间包含总体均
数(估计正确),只有 5个可信区间不包含总体均
数(估计不正确),或对于某一个区间而言,它
包含总体均数的可能性为 95%,而不包含总体均
数的可能性仅为 5%。因此在实际应用中,以这种
方法估计总体均数犯错误的概率仅为 5%。
2011年 7月 17日
可信区间具有两个要素
一、是准确度( accuracy),即可信区
间包含的概率的大小,一般而言概率越
大越好。
二、是精密度( precision),反映区间
的长度,区间的长度越窄,估计的精密
度越好,反之越差。
2011年 7月 17日
在样本含量一定的情况下,二者是相互
矛盾的,若考虑提高准确度(即减小 ?
,增大或),则区间变宽,精密度下降
。因而在实际中不能笼统地认为 99%的
可信区间好于 95%的可信区间,而是需
要兼顾二个要素。在通常情况中,以
95%的可信区间较为常用。在可信度固
定的前提下,要提高精密度的唯一方法
是扩大样本含量。
2011年 7月 17日
可信区间应注意的问题,
①在进行区间估计时,总体均数是一个固定
参数,而由样本计算出的可信区间是变化的
,即每次抽样所算得的区间是不同的。因此
,不能说总体均数以的可信度落在可信区间
中,而是可信区间以的可信度包含总体均数

②在可信区间未计算出来之前,可以说区间
以 95%的可能性包含了总体均数;但可信区
间一经计算出来,它要么包含,要么不包含
,不存在 95%的概率问题 。
2011年 7月 17日
可信度与可信区间
区间的 可信度 (如 95%或 99%)是重复抽
样(如 1000次)时,样本(如 n=5)区间包含
总体参数 (?)的百分数。常用 100(1-α )%或
(1-α )表示,α值一般取 0.05或 0.01。
???
?
???
?
?????? ???? ??,2,21 t
S
XtP
X
)或(;或写成
),可信区间为(
XXX
XX
StXStXStX
StXStX
??????
????
?
?
,2/,2/,2/
,2/,2/)%1(100
?????
???
2011年 7月 17日
可信度与可信区间
区间的 可信度 (如 95%或 99%)是重复抽
样(如 1000次)时,样本(如 n=5)区间包含
总体参数 (?)的百分数。常用 100(1-α )%或
(1-α )表示,α值一般取 0.05或 0.01。
???
?
???
?
?????? ???? ??,2,21 t
S
XtP
X
)或(;或写成
),可信区间为(
XXX
XX
StXStXStX
StXStX
??????
????
?
?
,2/,2/,2/
,2/,2/)%1(100
?????
???
2011年 7月 17日
可信度实验
2011年 7月 17日
2,总体均数的可信区间
2011年 7月 17日
3,两 总体均数 差 的可信区间
2011年 7月 17日
4,大样本总体均数的可信区间( 1)
2011年 7月 17日
4,大样本总体均数的可信区间( 2)
2011年 7月 17日
5、中位数与其他分位数的可信区间
在实际工作中,不仅需要估计均数和率的可信
区间,有时也要估计中位数或百分位数的可信
区间。当数据为大样本时,可用率的可信区间
推算中位数或百分位数的可信区间。见 P112
2011年 7月 17日
6、可信区间的解释
95%可信区间,从总体中作随机抽样,作
100次抽样,每个样本可算得一个可信区间,
得 100个可信区间,平均有 95个可信区间包
括 μ (估计正确 ),只有 5个可信区间不包括
μ (估计错误 )。
95%可信区间 99%可信区间
公式
区间范围 窄 宽
估计错误的概率 大( 0.05) 小( 0.01)
XX StXStX ??,2/01.0,2/01.0,?? XX StXStX ??,2/05.0,2/05.0,??
2011年 7月 17日
区 别 点 总 体 均 数 可 信 区 间 参 考 值 范 围


按 预 先 给 定 的 概 率, 确 定 的 未 知 参 数 ? 的 可 能 范 围 。 实 际 上 一
次 抽 样 算 得 的 可 信 区 间 要 么 包 含 了 总 体 均 数, 要 么 不 包 含 。 但
可 以 说, 当 ? = 0,05 时, 95% CI 估 计 正 确 的 概 率 为 0.95, 估 计
错 误 的 概 率 小 于 或 等 于 0.05, 即 有 95 % 的 可 能 性 包 含 了 总 体
均 数 。
,正 常 人, 的 解 剖, 生 理, 生
化 某 项 指 标 的 波 动 范 围 。
总 体 均 数 的 波 动 范 围 个 体 值 的 波 动 范 围
计 算
公 式
? 未 知,
,X
X t S
??
?
*
? 已 知 或 ? 未 知 但 n >6 0,
X
Xu
?
?? 或
X
X u S
?
?
**
正 态 分 布, X u S
?
?
**
偏 态 分 布, P
X
~ P
100 ? X
用 途 总 体 均 数 的 区 间 估 计 绝 大 多 数 ( 如 95 % ) 观 察 对 象
某 项 指 标 的 分 布 范 围
*
,
t
??
也 可 用
/ 2,
t
??
( 对 应 于 双 尾 概 率 时 )
**
,
u
??
也 可 用
/ 2,
u
??
( 对 应 于 双 尾 概 率 时 )