医疗等本科班,医学统计学,Dr,宇传华 制作第三章两组资料均数的比较
2009年 7月 28日第四军医大学卫生统计学教研室两组资料均数的比较第一节 均数的抽样误差第二节 t分布与可信区间第三节 t检验第四节 假设检验的步骤及其有关概念
2009年 7月 28日第四军医大学卫生统计学教研室总体 样本抽取部分观察单位统计量参 数 统计推断统计推断
statistical inference
如:样本均数样本标准差 S
样本率 P
如:总体均数总体标准差总体率?
X
内容:
1,参数估计
(estimation of
parameters)
包括:点估计与区间估计
2,假设检验 ( test
of hypothesis)
2009年 7月 28日第四军医大学卫生统计学教研室总体 样本抽取部分观察单位统计量参 数 统计推断第一节 均数的抽样误差
如,样本均数样本标准差 S
样本率 P
如,总体均数总体标准差总体率?
X
抽样误差
( sampling
error),由于个体差异导致的 样本 统计量与 总体 参数间的差别。
2009年 7月 28日第四军医大学卫生统计学教研室一、抽样试验从正态分布总体 N( 5.00,0.502)中,每次随机抽取样本含量 n= 5,并计算其均数与标准差;重复抽取 1000次,获得 1000份样本;计算 1000份样本的均数与标准差,并对
1000份样本的均数作直方图。
按上述方法再做样本含量 n= 10、样本含量 n= 30的抽样实验;比较计算结果。
2009年 7月 28日第四军医大学卫生统计学教研室抽样试验( n=5)
2009年 7月 28日第四军医大学卫生统计学教研室抽样试验( n=10)
2009年 7月 28日第四军医大学卫生统计学教研室抽样试验( n=30)
2009年 7月 28日第四军医大学卫生统计学教研室
1000份样本抽样计算结果总体的均数总体标准差?
均数的均数均数标准差
n=5 5.00 0.50 4.99 0.2212 0.2236
n=10 5.00 0.50 5.00 0.1580 0.1581
n=30 5.00 0.50 5.00 0.0920 0.0913
n?nS
2009年 7月 28日第四军医大学卫生统计学教研室
3个抽样实验结果图示
0
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
4 0 0
4 5 0
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均 数频数
0
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
4 0 0
4 5 0
3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均 数频数
0
5 0
1 0 0
1 5 0
2 0 0
2 5 0
3 0 0
3 5 0
4 0 0
4 5 0
3
.
7 1
3.92 4
,1
2
4.33 4
.
5 4
4.74 4
.
9 5
5,
1
5
5.36 5,
5
7
5.77 5,
9
8
6.19
均 数频数
2 2 1 2.0;5 XSn
0 9 2 0.0;30 XSn
1580.0;10 XSn
2009年 7月 28日第四军医大学卫生统计学教研室抽样实验小结均数的均数 围绕总体均数上下波动。
均数的标准差 即 标准误 与总体标准差 相差一个常数的倍数,即样本 均数的标准误( Standard Error)
=样本标准差 /
从正态总体 N(?,?2)中抽取样本,获得均数的分布仍近似呈 正态分布 N(?,?2/n) 。
nS=样本含量
nX /
X?
2009年 7月 28日第四军医大学卫生统计学教研室二、中心极限定理
central limit theorem
① 即使从 非正态总体 中抽取样本,所得均数分布仍近似呈 正态 。
②随着样本量的增大,样本均数的 变异 范围也逐渐变窄。
2009年 7月 28日第四军医大学卫生统计学教研室第二节 t分布与可信区间一,t分布( t distribution)
二、总体均数的估计
1,总体均数的点估计( point estimation)与区间估计
2,总体均数的可信区间( confidence interval,CI)
3,总体均数 差 的可信区间
4,大样本 总体均数的可信区间三、可信区间的解释
2009年 7月 28日第四军医大学卫生统计学教研室一,t分布
Xu
X
随机变量 X
N(?,?2)
标准正态分布
N( 0,12)u变换均数 标准正态分布
N( 0,12)n
Xu

),( 2 nN
1, nv
S
X
nS
Xt
X
Student t分布自由度,n-1
2009年 7月 28日第四军医大学卫生统计学教研室
t分布的概率密度函数
2)1(2 )/1(
)2(
2)1()(


ttf
式中 为伽玛函数; 圆周率( Excel函数为
PI( ))
为自由度( degree of freedom),是 t分布的唯一参数; t为随机变量。
以 t为横轴,f(t)为纵轴,可绘制 t分布曲线。
)(
2009年 7月 28日第四军医大学卫生统计学教研室
t分布曲线
0,0
0,1
0,1
0,2
0,2
0,3
0,3
0,4
0,4
- 4 - 3 - 2 - 1 0 1 2 3 4
t
f ( t )
自 由 度 为 1 的 t 分 布自 由 度 为 9 的 t 分 布标 准 正 态 分 布
t 分布 有如下性质:
①单峰分布,曲线在 t= 0
处最高,并以 t= 0为中心左右对称
②与正态分布相比,曲线最高处较矮,两 尾部翘得高 (见绿线)
③ 随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。
2009年 7月 28日第四军医大学卫生统计学教研室
t分布曲线下面积(附表 2)
双侧 t0.05/2,9= 2.262
=单侧 t0.025,9
单侧 t0.05,9= 1.833
双侧 t0.01/2,9= 3.250
=单侧 t0.005,9
单侧 t0.01,9= 2.821
双侧 t0.05/2,∞ = 1.96
=单侧 t0.025,∞
单侧 t0.05,∞ = 1.64
2009年 7月 28日第四军医大学卫生统计学教研室二,总体均数的估计
pSX,、
1,总体均数的点估计( point estimation)与区间估计参数的估计点估计,由样本统计量直接估计 总体参数区间估计,在一定 可信度
( Confidence level) 下
,同时考虑抽样误差
,、
2009年 7月 28日第四军医大学卫生统计学教研室可信度与可信区间区间的 可信度 (如 95%或 99%)是重复抽样(如 1000次)时,样本(如 n=5)区间包含总体参数 (?)的百分数。常用 100(1-α )%或
(1-α )表示,α值一般取 0.05或 0.01。


,2,21 t
S
XtP
X
)或(;或写成
),可信区间为(
XXX
XX
StXStXStX
StXStX


,2/,2/,2/
,2/,2/)%1(100


2009年 7月 28日第四军医大学卫生统计学教研室可信度实验
2009年 7月 28日第四军医大学卫生统计学教研室
2,总体均数的可信区间
2009年 7月 28日第四军医大学卫生统计学教研室
3,两 总体均数 差 的可信区间
2009年 7月 28日第四军医大学卫生统计学教研室
4,大样本总体均数的可信区间( 1)
2009年 7月 28日第四军医大学卫生统计学教研室
4,大样本总体均数的可信区间( 2)
2009年 7月 28日第四军医大学卫生统计学教研室三、可信区间的解释
95%可信区间,从总体中作随机抽样,作
100次抽样,每个样本可算得一个可信区间,
得 100个可信区间,平均有 95个可信区间包括 μ (估计正确 ),只有 5个可信区间不包括
μ (估计错误 )。
95%可信区间 99%可信区间公式区间范围 窄 宽估计错误的概率 大( 0.05) 小( 0.01)
XX StXStX,2/01.0,2/01.0, XX StXStX,2/05.0,2/05.0,
2009年 7月 28日第四军医大学卫生统计学教研室区 别 点 总 体 均 数 可 信 区 间 参 考 值 范 围含义按 预 先 给 定 的 概 率,确 定 的 未 知 参 数? 的 可 能 范 围 。 实 际 上 一次 抽 样 算 得 的 可 信 区 间 要 么 包 含 了 总 体 均 数,要 么 不 包 含 。 但可 以 说,当? = 0,05 时,95% CI 估 计 正 确 的 概 率 为 0.95,估 计错 误 的 概 率 小 于 或 等 于 0.05,即 有 95 % 的 可 能 性 包 含 了 总 体均 数 。
,正 常 人,的 解 剖,生 理,生化 某 项 指 标 的 波 动 范 围 。
总 体 均 数 的 波 动 范 围 个 体 值 的 波 动 范 围计 算公 式
未 知,
,X
X t S

*
已 知 或? 未 知 但 n >6 0,
X
Xu

X
X u S
**
正 态 分 布,X u S
**
偏 态 分 布,P
X
~ P
100? X
用 途 总 体 均 数 的 区 间 估 计 绝 大 多 数 ( 如 95 % ) 观 察 对 象某 项 指 标 的 分 布 范 围
*
,
t

也 可 用
/ 2,
t

( 对 应 于 双 尾 概 率 时 )
**
,
u

也 可 用
/ 2,
u

( 对 应 于 双 尾 概 率 时 )