第二章
计量资料的统计描述
第一节 频数分布
一、频数分布表
将变量值化分为若干个组段,清点并
记录各组段变量值的个数,称为频数表。
了解变量值的分布情况 。
组 段 频数( f) 频数构成比( %)
2.30~ 1 0.99
2.60~ 3 2.97
2.90~ 6 5.94
3.20~ 8 7.92
3.50~ 17 16.83
3.80~ 20 19.80
4.10~ 17 16.83
4.40~ 12 11.88
4.70~ 9 8.91
5.00~ 5 4.95
5.30~ 2 1.98
5.60~ 5.90 1 0.99
合 计 101 100.00
101名正常成年女子血清总胆固醇 (mmol/L)频数分布
1.求极差,也称全距 (Range)
R=最大值-最小值 =5.71-2.35=3.36
2.确定组段数(取 10-15组)和组距:
组距 (i)=全距 ∕ 组段数 =3.36∕10=0.336≈0.30
3.写出组段:
起始组段取小于或等于最小值的数,最后组段
包含最大值。 L≤X < U。
4.分组划计并统计频数。
编制频数表的步骤,
101 ?? ?y 3£ 3é ?ê ?? 3ó ?a ?? μ¨1ì ′? ?μ êy 2? 2?
0
5
10
15
20
25
2, 3 0 ?? 2, 9 0 ?? 3, 5 0 ?? 4, 1 0 ?? 4, 7 0 ?? 5, 3 0 ??
?a ?? 3ü μ¨1ì ′? ( m m o l / L )
?μ
êy
£¨f
£?
二、频数分布图
三、频数表和频数分布图的用途
1.描述频数分布的类型
正态分布
正(右)偏态分布、负(左)偏态分布
2.描述频数分布特征
变异范围、统计分布规律(对称性、集
中位置、在各组段出现的频率等)
3.便于发现资料中的可疑值。
4.便于进一步做统计分析和处理。
115 ?? ?y 3£ 3é ?ê ?? 3ó ?a ?? 3a °±?? ?μ êy 2? 2?
0
5
10
15
20
25
12 ?? 15 ?? 18 ?? 21 ?? 24 ?? 27 ?? 30 ?? 33 ?? 36 ?? 39 ?? 42 ??
45
?a ?? 3a °±?? £¨m m o l / L £?
è?
êy
£¨f
£?
1 0 1 ?? ?y 3£ è? ?a ?? ?? oì μ°°3?μ êy 2? 2?
0
5
10
15
20
25
0 ?? 1 0 ?? 2 0 ?? 3 0 ?? 4 0 ??
?a ?? ?? oì μ°°3£¨ / m L £?
è?
êy
£¨f
£?
μg
第二节 集中趋势的描述
计量数据统计描述指标:
? 集中趋势指标:
描述一组 同质 的 变量值 的集中位置或 平均水平 。
常用的有:算术均数、几何均数、中位数。
? 离散趋势指标:
描述一组同质变量值的离散程度或变异大小。
常用的有:极差、四分位数间距、方差、标准
差、变异系数。
一、算术均数 ( arithmetic mean)
简称均数 (mean),适用正态或近似正态分布资料。
? ?L/m m ol03.4
101
91.378.435.2
X
1011-2
n
X
n
XXX
X,1
X
n21
?
???
?
?
???
?
?
?
?
?
胆固醇均数:名正常成年女子血清总某单位例
直接计算法:
总体均数
样本均数
? ?L/m m ol06.4
10 1
75.40 9
131
75.5175.2345.21
X
10 11-2
f
X f
fff
XfXfXf
X
2.
k21
kk2211
??
???
??????
?
?
???
???
?
?
?
?
?
?
?
血清总胆固醇均数:
名正常成年女子某单位例
频数表法:
组 段 频数 (f) 组中值 (X) fX
2.30~ 1 2.45 2.45
2.60~ 3 2.75 8.25
2.90~ 6 3.05 18.30
3.20~ 8 3.35 26.80
3.50~ 17 3.65 62.05
3.80~ 20 3.95 79.00
4.10~ 17 4.25 72.25
4.40~ 12 4.55 54.60
4.70~ 9 4.85 43.65
5.00~ 5 5.15 25.75
5.30~ 2 5.45 10.90
5.60~ 5.90 1 5.75 5.75
合计 101 — 409.75
101名正常成年女子血清总胆固醇 (mmol/L)算术均数计算
CASIO fx-3600P计算器统计功能
步骤 键 盘 说 明
1,MOOD 3 进入 SD统计功能
2,INV AC 清除原有数据
3,2.35 DATA 输入数据
4.21 DATA
3.32 DATA
?
4,INV 1(数字键) 显示计算的
5,INV 3 (数字键) 显示计算的 S
6,Kout 3 (数字键) 显示计算的 n
7,Kout 1 (数字键) 显示计算的
X
X?
CASIO fx-3600P计算器统计功能
步骤 键 盘 说 明
1,MOOD 3 进入 SD统计功能
2,INV AC 清除原有数据
3,2.453 1 DATA 输入数据
2.753 3 DATA 3 后为频数
3.053 6 DATA
?
4,INV 1(数字键) 显示计算的
5,INV 3 (数字键) 显示计算的 S
6,Kout 3 (数字键) 显示计算的 n
7,Kout 1 (数字键) 显示计算的
X
X?
二、几何均数 ( geometric mean)
适用于经对数转换后呈正态分布资料,常用于
数据呈倍数变化的资料。
8.34
5
160lg40lg40lg20lg10lg
lg
n
Xlg
lgG
8.3416040402010XXXG
54
5
270
n
X
X,1
16040402010
5 4-2
1
1-
5
5
n21
??
?
?
?
?
? ????
?
?
?
?
?
?
?
?
?
?
???????
???
?
?
?
?
。,,,,数分别为试验测得其抗体滴度倒
后用间接荧光抗体例微丝蚴患者治疗七年某地例
表 2-4 69例类风湿关节炎患者血清 EBV-VCA-lgG
抗体滴度的测定结果
滴度倒数 (X) 人数 (f) lgX f lgX
10 4 1.0000 4.0000
20 3 1.3010 3.9030
40 10 1.6021 16.0210
80 10 1.9031 19.0310
160 11 2.2041 24.2451
320 15 2.5051 37.5765
640 14 2.8062 39.2868
1280 2 3.1072 6.2144
合计 69 — 150.2778
2.
6.1 50)1 77 9.2(lg
)
69
2 77 8.1 50
(lg)
f
Xlgf
(lgG
1
1i1
??
?
?
?
?
?
??
结论,69例类风湿关节炎患者血清 EBV-
VCA-lgG抗体平均滴度为 1:150.6。
69f ??
2 7 7 8.1 5 0xlgf ??
87.280X ?
三、中位数与百分位数
(一)中位数 ( median)
将一组变量值由小到大依次排列,居以中间
位次的观察值。
适用各种分布类型资料,尤其是偏态分布资
料和一端或两端无确切数值的资料。
X,5,5,6,7,20,
位次,1 2 3 4 5
23
6
中位数 (M),6 6.5
(二)百分位数 ( percentile)
是一种位置指标,用 PX 来表示。
将 n个变量值从小到大依次排列,再把它们的
位次转换为百分位。对应于 X%位次的数值
即为第 X百分位数。
变量值,5 5 8 ? 89 ? 758
位 次,1 2 3 ? 75 ? 150
百分位次,0.7% ? 2% ? 50% ? 100%
一个 PX将全部变量值分为两部分,在不包含
PX的全部变量值中有 X%的变量值比它小,
有 (100-X)%的变量值比它大。
PX是一个界值。
M实际上是第 50百分位数。
1.直接计算法
用 nX%确定 PX 的位次。
当 nX%带有小数位时:
trunc( a) 表示对数字取其整数。
当 nX%为整数时:
? ?? ?1%nXt r u n cX XP ??
? ? ? ?? ?1%nX%nXX XX2
1
P ???
细菌性痢疾治
愈者 (n=120) 1 2 3 4 5 6 7 8 9 ? 117 118 119 120
住 院 天 数 1 2 2 2 3 3 4 4 5 ? 40 40 42 45
? ? ? ?
? ? ? ?
? ?? ? ? ?
)(42XXP
)(8.11 8%9912 0
)(5.343
2
1
XX
2
1
P
)(6%512 0
11918.118t r u n c99
765
天
小数
天
整数
???
??
?????
??
?
2.频数表法
)f%Xn(
f
i
LP L
X
X
XX ?????
LX:第 X百分位数所在组段的 下限
iX:第 X百分位数所在组段的 组距
fX:第 X百分位数所在组段的 频数
:第 X百分位数所在组段 上一组段累计频数
Lf?
表 2-5 某地 118名链球菌咽喉炎患者潜伏期
天数 人数 f 累计频数 累计频率 %
12~ 4 4 3.4
24~ 17 21 17.8
36~ 32 53 44.9
48~ 24 77 65.3
60~ 18 95 80.5
72~ 12 107 90.7
84~ 5 112 94.9
96~ 4 116 98.3
108~ 2 118 100.0
? ? ? ?天5.6777%75118
18
12
60P 75 ?????
? ? ? ?天2.3921%25118
32
12
36P 25 ?????
? ? ? ?天5153%50118
24
12
48PM 50 ??????
第三节 离散趋势的描述
? 描述计量资料数据间离散程
度的指标 —变异指标
? 常用的指标有:
? 极差, 四分位间距,
? 方差、标准差、变异系数
几个常用的变异指标
? 一,极差( Range):用( R)表示,
即一组数据的 R=最大值 –最小值
? 意义,R值越大,表示该组数据的变异
越大。
? 缺点:数据利用不全,部分信息损失,
在例数少时结果不稳定。
? 例 2-10 三组同龄男孩的身高值( cm)
? R
? 甲组 90 95 100 105 110 100 20
? 乙组 96 98 100 102 104 100 8
? 丙组 96 99 100 101 104 100 8
x
二、四分位数间距
? 四分位数间距:常用 QR表示,
? 计算:用百分位数法计算数据第 75%与第
25%位数之差。 QR=P75%-P25%
? 作为变异指标比极差稳定。 常用于表示偏
态分布资料的变异。
? 例,QR= P75%-P25% =67.7- 39.2=28.5(天)
? 表示方法,Md( QR)
? M=51天,( QR=28.5天)
三,标准差和方差
( Standard deviation and variance)
公式
2()X
N
?
?
?
? ?
2
2 ()X
N
?
?
?
? ?
标准差
2? ?
方差
总体方差 总体标准差
标准差计算公式
2()
1
XX
S
n
?
?
?
?
2()X
N
?
?
?
? ? 总体(理论)
样本标
准差
标准差的简化计算公式:
1
/)( 22
?
???
?
n
nXX
S
1
/)(
22
??
????
?
f
ffXfX
S
( 2-14)
例数较少
( 2-15)
频数表
资料
例 2-10 甲组 5名同龄男孩的身高值( cm)
? X X2
? 90 8100
? 95 9025
? 100 10000
? 105 11025
? 110 12100
?
500?? X 5 0 2 5 02 ?? X
91.7
15
5/)500(50250 2 ?
?
??S
1
/)( 22
?
????
n
nXXS
100?x
? 例 2-10 三组同龄男孩的身高值( cm)
? R S
? 甲组 90 95 100 105 110 100 20 7.91
? 乙组 96 98 100 102 104 100 8 3.16
? 丙组 96 99 100 101 104 100 8 2.92
? 标准差的意义:
? 反映一组数据平均的离散水平,单位相同
时,S越小,表示数据的变异程度越小,同
时表示该组均数的代表性越大。
x
表 2-1 101名正常女子血清胆固醇值
组段 ( X) 频数( f) fX fx 2
2.30~ 2.45 1 2.45 6.00
2.60~ 2.75 3 8.25 22.69
2.90~ 3.05 6 18.30 55.82
3.20~ 3.35 8
3.50~ 3.65 17
3.80~ 3.95 20
4.10~ 4.25 17
4.40~ 4.55 12
4.70~ 4.85 9
5.00~ 5.15 5
5.30~ 5.45 2
5.6-5.9 5.75 1
21 0 1,4 0 9, 7 5,1 7 0 5, 0 9f f X f X? ? ? ? ? ?
2( 4 0 9, 7 5 )
1 7 0 5, 0 9
101 0, 6 5 4 ( m m o l /L)
1 0 1 1
S
?
??
?
1
/)(
22
??
????
?
f
ffXfX
S
四、变异系数 (CV)
%100??
X
S
CV
应用, 1.单位不同时组间变异程度的比较 。
2.比较组单位相同,但均数相差悬殊
的组 间变异程度,
意义,CV越大,表示数据变异越大。
常用于衡量方法、仪器的精密度 。
公式:
1,1.单位不同时组间变异程度的比较 。
表 5 体脂 ( % )与胆固醇 ( m m o l )的变异系数
指标 X S C V ( % )
体脂 ( % ) 1 8, 9 0 5, 8 0 3 0, 6 9
胆固醇 ( m m o l ) 4, 8 4 1, 0 4 2 1, 4 0
X S
? 某地不同年龄组男童身高( cm)
? 年龄组 S CV%
? 1-2月 56.3 2.1 3.73
? 5-6月 66.5 2.2 3.31
? 3-3.5岁 96.1 3.1 3.22
? 5-5.5岁 107.8 3.3 3.06
? 结论:随着年龄增加,身高的变异变小。
2.比较组单位相同,但均数相差悬殊的
组间变异程度比较,如表。
X
计量数据的统计描述小结
? 1,在医学杂志中,正态或近似正态资料,
常以 的形式表达,描述和比较 数据
的平均水平和离散程度。
? 例 两组患者年龄(岁)的比较
? 组别 n
? 试验组 12 45.9 ± 3.7
? 对照组 10 50.5 ± 13.0
? 两组患者随机化后基线情况的比较
SX ?
SX ?
? 2.偏态分布或特定资料(生存时间、病
程、潜伏期时间等)用中位数和四分位
间距描述。
? 表达形式,M,( QR)
? 3.等比数据和正偏态数据可用几何均数
和几何标准差描述
? 表达形式,G± SG
)
1
/)lg()( l g
(lg
22
1
?
???
? ?
n
nXX
S G
第二章 统计描述
第四节 正态分布
(Normal distribution)
正态分布( Normal Distribution)
? 概述:
? 正态分布是描述连续型 变量
值 分布的曲线,医学资料许
多服从正态分布。
?
? 直方图的频数分布与正态分布
? (见图 2-4)
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
12.00 14.50 17.00 19.50 22.00 24.50 27.00 29.50 32.00
D? ±? óa ?? ê? íè 2? ?? á| £¨k g £? 2? 2?
0
10
20
30
40
50
14- 16- 18- 20- 22- 24- 26- 28- 30- 32-
?? á| £¨k g £?
?μ
êy
£¨f
£?
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
12.0 14.5 17.0 19.5 22.0 24.5 27.0 29.5 32.0
图 2-4 频数分布与正态分布示意图
一、正态分布的概念和特征
? 1.正态分布曲线的数学函数表达式:
2)(
2
1
2
1
)( ?
?
??
?
?
?
X
eXf
X为连续随机变量,μ为 X值的总体均数,
σ2 为总体方差,记为 X~N( μ, σ2)
(-?>X< ?)
( 2-17)
2、正态分布曲线理论上的特征
? ( 1)以 X= μ为中心,μ左右 X值对称性减
少。
? ( 2)在 X= μ处曲线最高,f( X=μ)为最
大值。
? 3,μ, σ决定 正态分布曲线位置和形状
? 固定 σ,随 μ 不同,曲线位置不同,称 μ
为 位置参数,
? 固定 μ, σ越大,曲线形状不同,称 σ为
形状参数,正态分布是一个分布族。
图 2-5 正态分布参数位置变化示意图
图 2-6 正态分布变异度不同变化示意图
? 4.理论上,有中位数 =均数( μ)
? 5.任何正态分布的 X通过 u值 转换后,称为标
准化的正态分布,即 u ~N( μ=0, σ2=1)
2
2
2
1
)(
u
euf
?
?
?
?
??
?
X
u
标准正态分布方程 u为标准化变量值
三、正态曲线下面积(概率)的分
布及估计方法
? 1.曲线下 a?b区间面积的含义
? ( 1)表示 X值在 a?b区间占全部变量值的百
分比或表示 X值在 a?b区间出现的 概率 ( P)。
? ( 2) X在曲线下整个面积分布为 100%
? 或 X值在曲线范围内出现的概率为 1。
2.估计曲线下面积的方法
? 将变量值( X)转换为 u值后,查标准正
态分布表( P520),可估计曲线下 a?b区
间的面积。
dueu
u
u
2
2
2
1
)(
?
???
??
?
?
??
?
X
u
( 2-21)
()u? 表示从- ∞到 u值范
围内 X分布面积
标准正态分布曲线下面积
( ) 1 ( )uu? ? ? ? ?
6 8 2 6.01 5 8 7.0)8 4 1 3.0(
)1()1(
???
??????? uu
例:标准正态变量值 u=( -1,1)和 u=( -1.96
,1.96)区间的面积(概率)各为多少?
同理,u=( -2.58,2.58)区间的面积为 0.99
记为:
)(u?
有,
( 1, 9 6 ) ( 1, 9 6 )
0, 9 7 5 0, 0 2 5 0, 9 5
uu? ? ? ? ? ?
???
变量值分布
的范围表达
X占的百
分比 (%)
)1,1( ???? ??
)96.1,96.1( ???? ??
)58.2,58.2( ???? ??
68.27%
95.00%
99.00%
任意正态分布变量值 (X)理论上分布规律
3.医学常用的三个 X 分布范围及 u界值
( 1) X值分布范围
u0.05/2=1.96 (双侧) u0.01/2=2.58(双侧)
u0.05=1.64 (单侧) u0.01=2.33(单侧)
?
?u
( 2) 统计中常用尾部面积的 u值,记,称为 u
界值。
三、正态分布的应用
1.估计正态分布 X值在特定值范围内的
分布比例。例:
2.制定某临床指标的的参考值范围
3.利用 估计变量值的范围或
对极端值做取舍。
4.许多统计方法的统计推断建立在正
态分布基础上 。
SX 3?
例 2.14 101名正常成年女子的血清总胆
固醇, 。试估计
该总体正常女子血清总胆固醇在 4mmol/l以
下者的百分比。
? 解:假定该资料服从正态分布,将 X1=4
转换为 u值,查正态分布表
09.0
6 54.0
06.44
1 ??
????
?
?xu
用
??X
??S
0,6 5 4S ?lm m o lx /06.4?
查表
? 标准正态变量( u1) =- 0.09
?
4641.0)09.0( 1 ???? u
该地正常女子血清总胆固醇在
4mmol/l以下者的百分比为 46.41%。
145 例正常人体温实际分布和理论分布 (正态)比较
公式 体温值
分布范围
实际分布
频数 比例
( % )
理论分布
( % )
SX
SX
SX
58.2
96.1
1
?
?
? 36,23- 3 6.90
35,92- 3 7.22
35,71- 3 7.43
103
137
144
68.21
94.48
99.31
68.27
95.00
99.00
第五节 医学参考值范围的制定
? 一概念
? 医学参考值是指包括绝大多数, 正常
人, 的各种生理及生化指标常数, 也
称正常值 。
? 由于存在个体差异, 正常值并非为常
数, 而是在一定范围内波动, 医学上
常用 95%或 99%的分布范围作为判定
正常和异常的参考标准 。
? 二、医学参考值制定时注意问题:
? 1.确定诊断指标为“定性”或“定量”
? 2.有无“金标准方法”考核
? 3.计量资料考虑制定单侧诊断界值还
是双侧诊断界值
? 4.有足够的样本例数(一般不低于
100例)
?
三、计量资料参考值的制定
? 1.正态分布法(一般要对资料进
行正态性检验)
? 双侧 参考值范围公式:
? 单侧 参考值范围公式:
/2X u S??
SuX ??? SuX
???
下限值或 上限值
1 ??
1 ??
? 例 2-15 估计例 2-1某单位 101名正常成年
女子血清总胆固醇的参考值范围 。 假设
该资料服从正态分布 。
? 已知:
? 计算 95%的参考范围 ( 双侧 )
? 结论:正常成年女子血清总胆固醇 95%
的参考值范围为 2.78-5.34( mmol/l)
4,0 6 m m o l/ LX ? 0,6 5 4 m m o l/ LS ?
)34.5,78.2(
654.096.106.42/05.0
?
???? suX
2.百分位数法
? 偏态分布资料医学参考值范围的制定通
常采用百分位数法,。
? 双侧 参考值范围:
? 单侧 参考值范围:
1 ??
1 ??
10 0 / 2 10 0 10 0 / 2PP?? ??
100P ?? 10 0 10 0P ???
或
例:讲义
常用 α=0.05
上限值下限值
表 例,102名 3岁以下儿童 LgA含量
? 组段( d) 频数 累计频数 位次范围
? 0- 29 29 1-29
? 15- 32 61 30-61
? 30- 18 79 62-79
? 45- 14 93 80-93
? 60- 4 97 94-97
? 75- 0 97 97
? 90- 0 97 97
? 105- 2 99 98-99
? 120- 1 100 100
? 135- 2 102 101-102
? 合计 102
例,102名 3岁以下儿童 LgA含量
47.8664.22
8369.2796.191176.3196.1
8369.27,91176.31
??
????
??
SX
SX
该地 3岁以下儿童 LgA含量的分布最小、最
大范围为 0-135(单位),由上式可见,该
资料不服从正态分布。
变量值 95%的分布范围
正态分布要求
? 本节要求:
? 1.正态分布理论上的 4点特征
? 2.能正确使用标准正态分布表(利用 u值)
? 3.掌握正态分布的三个常用的分布规律。
? 小结:
? 正态分布法和百分位数法可以对个体做
评价,可以了解一定范围 X值的比例。
1.直接计算法
用 nX%确定 PX 的位次。
当 nX%带有小数位时:
trunc( a) 表示对数字取其整数。
当 nX%为整数时:
? ?? ?1%nXt r u n cX XP ??
? ? ? ?? ?1%nX%nXX XX2
1
P ???
计量资料的统计描述
第一节 频数分布
一、频数分布表
将变量值化分为若干个组段,清点并
记录各组段变量值的个数,称为频数表。
了解变量值的分布情况 。
组 段 频数( f) 频数构成比( %)
2.30~ 1 0.99
2.60~ 3 2.97
2.90~ 6 5.94
3.20~ 8 7.92
3.50~ 17 16.83
3.80~ 20 19.80
4.10~ 17 16.83
4.40~ 12 11.88
4.70~ 9 8.91
5.00~ 5 4.95
5.30~ 2 1.98
5.60~ 5.90 1 0.99
合 计 101 100.00
101名正常成年女子血清总胆固醇 (mmol/L)频数分布
1.求极差,也称全距 (Range)
R=最大值-最小值 =5.71-2.35=3.36
2.确定组段数(取 10-15组)和组距:
组距 (i)=全距 ∕ 组段数 =3.36∕10=0.336≈0.30
3.写出组段:
起始组段取小于或等于最小值的数,最后组段
包含最大值。 L≤X < U。
4.分组划计并统计频数。
编制频数表的步骤,
101 ?? ?y 3£ 3é ?ê ?? 3ó ?a ?? μ¨1ì ′? ?μ êy 2? 2?
0
5
10
15
20
25
2, 3 0 ?? 2, 9 0 ?? 3, 5 0 ?? 4, 1 0 ?? 4, 7 0 ?? 5, 3 0 ??
?a ?? 3ü μ¨1ì ′? ( m m o l / L )
?μ
êy
£¨f
£?
二、频数分布图
三、频数表和频数分布图的用途
1.描述频数分布的类型
正态分布
正(右)偏态分布、负(左)偏态分布
2.描述频数分布特征
变异范围、统计分布规律(对称性、集
中位置、在各组段出现的频率等)
3.便于发现资料中的可疑值。
4.便于进一步做统计分析和处理。
115 ?? ?y 3£ 3é ?ê ?? 3ó ?a ?? 3a °±?? ?μ êy 2? 2?
0
5
10
15
20
25
12 ?? 15 ?? 18 ?? 21 ?? 24 ?? 27 ?? 30 ?? 33 ?? 36 ?? 39 ?? 42 ??
45
?a ?? 3a °±?? £¨m m o l / L £?
è?
êy
£¨f
£?
1 0 1 ?? ?y 3£ è? ?a ?? ?? oì μ°°3?μ êy 2? 2?
0
5
10
15
20
25
0 ?? 1 0 ?? 2 0 ?? 3 0 ?? 4 0 ??
?a ?? ?? oì μ°°3£¨ / m L £?
è?
êy
£¨f
£?
μg
第二节 集中趋势的描述
计量数据统计描述指标:
? 集中趋势指标:
描述一组 同质 的 变量值 的集中位置或 平均水平 。
常用的有:算术均数、几何均数、中位数。
? 离散趋势指标:
描述一组同质变量值的离散程度或变异大小。
常用的有:极差、四分位数间距、方差、标准
差、变异系数。
一、算术均数 ( arithmetic mean)
简称均数 (mean),适用正态或近似正态分布资料。
? ?L/m m ol03.4
101
91.378.435.2
X
1011-2
n
X
n
XXX
X,1
X
n21
?
???
?
?
???
?
?
?
?
?
胆固醇均数:名正常成年女子血清总某单位例
直接计算法:
总体均数
样本均数
? ?L/m m ol06.4
10 1
75.40 9
131
75.5175.2345.21
X
10 11-2
f
X f
fff
XfXfXf
X
2.
k21
kk2211
??
???
??????
?
?
???
???
?
?
?
?
?
?
?
血清总胆固醇均数:
名正常成年女子某单位例
频数表法:
组 段 频数 (f) 组中值 (X) fX
2.30~ 1 2.45 2.45
2.60~ 3 2.75 8.25
2.90~ 6 3.05 18.30
3.20~ 8 3.35 26.80
3.50~ 17 3.65 62.05
3.80~ 20 3.95 79.00
4.10~ 17 4.25 72.25
4.40~ 12 4.55 54.60
4.70~ 9 4.85 43.65
5.00~ 5 5.15 25.75
5.30~ 2 5.45 10.90
5.60~ 5.90 1 5.75 5.75
合计 101 — 409.75
101名正常成年女子血清总胆固醇 (mmol/L)算术均数计算
CASIO fx-3600P计算器统计功能
步骤 键 盘 说 明
1,MOOD 3 进入 SD统计功能
2,INV AC 清除原有数据
3,2.35 DATA 输入数据
4.21 DATA
3.32 DATA
?
4,INV 1(数字键) 显示计算的
5,INV 3 (数字键) 显示计算的 S
6,Kout 3 (数字键) 显示计算的 n
7,Kout 1 (数字键) 显示计算的
X
X?
CASIO fx-3600P计算器统计功能
步骤 键 盘 说 明
1,MOOD 3 进入 SD统计功能
2,INV AC 清除原有数据
3,2.453 1 DATA 输入数据
2.753 3 DATA 3 后为频数
3.053 6 DATA
?
4,INV 1(数字键) 显示计算的
5,INV 3 (数字键) 显示计算的 S
6,Kout 3 (数字键) 显示计算的 n
7,Kout 1 (数字键) 显示计算的
X
X?
二、几何均数 ( geometric mean)
适用于经对数转换后呈正态分布资料,常用于
数据呈倍数变化的资料。
8.34
5
160lg40lg40lg20lg10lg
lg
n
Xlg
lgG
8.3416040402010XXXG
54
5
270
n
X
X,1
16040402010
5 4-2
1
1-
5
5
n21
??
?
?
?
?
? ????
?
?
?
?
?
?
?
?
?
?
???????
???
?
?
?
?
。,,,,数分别为试验测得其抗体滴度倒
后用间接荧光抗体例微丝蚴患者治疗七年某地例
表 2-4 69例类风湿关节炎患者血清 EBV-VCA-lgG
抗体滴度的测定结果
滴度倒数 (X) 人数 (f) lgX f lgX
10 4 1.0000 4.0000
20 3 1.3010 3.9030
40 10 1.6021 16.0210
80 10 1.9031 19.0310
160 11 2.2041 24.2451
320 15 2.5051 37.5765
640 14 2.8062 39.2868
1280 2 3.1072 6.2144
合计 69 — 150.2778
2.
6.1 50)1 77 9.2(lg
)
69
2 77 8.1 50
(lg)
f
Xlgf
(lgG
1
1i1
??
?
?
?
?
?
??
结论,69例类风湿关节炎患者血清 EBV-
VCA-lgG抗体平均滴度为 1:150.6。
69f ??
2 7 7 8.1 5 0xlgf ??
87.280X ?
三、中位数与百分位数
(一)中位数 ( median)
将一组变量值由小到大依次排列,居以中间
位次的观察值。
适用各种分布类型资料,尤其是偏态分布资
料和一端或两端无确切数值的资料。
X,5,5,6,7,20,
位次,1 2 3 4 5
23
6
中位数 (M),6 6.5
(二)百分位数 ( percentile)
是一种位置指标,用 PX 来表示。
将 n个变量值从小到大依次排列,再把它们的
位次转换为百分位。对应于 X%位次的数值
即为第 X百分位数。
变量值,5 5 8 ? 89 ? 758
位 次,1 2 3 ? 75 ? 150
百分位次,0.7% ? 2% ? 50% ? 100%
一个 PX将全部变量值分为两部分,在不包含
PX的全部变量值中有 X%的变量值比它小,
有 (100-X)%的变量值比它大。
PX是一个界值。
M实际上是第 50百分位数。
1.直接计算法
用 nX%确定 PX 的位次。
当 nX%带有小数位时:
trunc( a) 表示对数字取其整数。
当 nX%为整数时:
? ?? ?1%nXt r u n cX XP ??
? ? ? ?? ?1%nX%nXX XX2
1
P ???
细菌性痢疾治
愈者 (n=120) 1 2 3 4 5 6 7 8 9 ? 117 118 119 120
住 院 天 数 1 2 2 2 3 3 4 4 5 ? 40 40 42 45
? ? ? ?
? ? ? ?
? ?? ? ? ?
)(42XXP
)(8.11 8%9912 0
)(5.343
2
1
XX
2
1
P
)(6%512 0
11918.118t r u n c99
765
天
小数
天
整数
???
??
?????
??
?
2.频数表法
)f%Xn(
f
i
LP L
X
X
XX ?????
LX:第 X百分位数所在组段的 下限
iX:第 X百分位数所在组段的 组距
fX:第 X百分位数所在组段的 频数
:第 X百分位数所在组段 上一组段累计频数
Lf?
表 2-5 某地 118名链球菌咽喉炎患者潜伏期
天数 人数 f 累计频数 累计频率 %
12~ 4 4 3.4
24~ 17 21 17.8
36~ 32 53 44.9
48~ 24 77 65.3
60~ 18 95 80.5
72~ 12 107 90.7
84~ 5 112 94.9
96~ 4 116 98.3
108~ 2 118 100.0
? ? ? ?天5.6777%75118
18
12
60P 75 ?????
? ? ? ?天2.3921%25118
32
12
36P 25 ?????
? ? ? ?天5153%50118
24
12
48PM 50 ??????
第三节 离散趋势的描述
? 描述计量资料数据间离散程
度的指标 —变异指标
? 常用的指标有:
? 极差, 四分位间距,
? 方差、标准差、变异系数
几个常用的变异指标
? 一,极差( Range):用( R)表示,
即一组数据的 R=最大值 –最小值
? 意义,R值越大,表示该组数据的变异
越大。
? 缺点:数据利用不全,部分信息损失,
在例数少时结果不稳定。
? 例 2-10 三组同龄男孩的身高值( cm)
? R
? 甲组 90 95 100 105 110 100 20
? 乙组 96 98 100 102 104 100 8
? 丙组 96 99 100 101 104 100 8
x
二、四分位数间距
? 四分位数间距:常用 QR表示,
? 计算:用百分位数法计算数据第 75%与第
25%位数之差。 QR=P75%-P25%
? 作为变异指标比极差稳定。 常用于表示偏
态分布资料的变异。
? 例,QR= P75%-P25% =67.7- 39.2=28.5(天)
? 表示方法,Md( QR)
? M=51天,( QR=28.5天)
三,标准差和方差
( Standard deviation and variance)
公式
2()X
N
?
?
?
? ?
2
2 ()X
N
?
?
?
? ?
标准差
2? ?
方差
总体方差 总体标准差
标准差计算公式
2()
1
XX
S
n
?
?
?
?
2()X
N
?
?
?
? ? 总体(理论)
样本标
准差
标准差的简化计算公式:
1
/)( 22
?
???
?
n
nXX
S
1
/)(
22
??
????
?
f
ffXfX
S
( 2-14)
例数较少
( 2-15)
频数表
资料
例 2-10 甲组 5名同龄男孩的身高值( cm)
? X X2
? 90 8100
? 95 9025
? 100 10000
? 105 11025
? 110 12100
?
500?? X 5 0 2 5 02 ?? X
91.7
15
5/)500(50250 2 ?
?
??S
1
/)( 22
?
????
n
nXXS
100?x
? 例 2-10 三组同龄男孩的身高值( cm)
? R S
? 甲组 90 95 100 105 110 100 20 7.91
? 乙组 96 98 100 102 104 100 8 3.16
? 丙组 96 99 100 101 104 100 8 2.92
? 标准差的意义:
? 反映一组数据平均的离散水平,单位相同
时,S越小,表示数据的变异程度越小,同
时表示该组均数的代表性越大。
x
表 2-1 101名正常女子血清胆固醇值
组段 ( X) 频数( f) fX fx 2
2.30~ 2.45 1 2.45 6.00
2.60~ 2.75 3 8.25 22.69
2.90~ 3.05 6 18.30 55.82
3.20~ 3.35 8
3.50~ 3.65 17
3.80~ 3.95 20
4.10~ 4.25 17
4.40~ 4.55 12
4.70~ 4.85 9
5.00~ 5.15 5
5.30~ 5.45 2
5.6-5.9 5.75 1
21 0 1,4 0 9, 7 5,1 7 0 5, 0 9f f X f X? ? ? ? ? ?
2( 4 0 9, 7 5 )
1 7 0 5, 0 9
101 0, 6 5 4 ( m m o l /L)
1 0 1 1
S
?
??
?
1
/)(
22
??
????
?
f
ffXfX
S
四、变异系数 (CV)
%100??
X
S
CV
应用, 1.单位不同时组间变异程度的比较 。
2.比较组单位相同,但均数相差悬殊
的组 间变异程度,
意义,CV越大,表示数据变异越大。
常用于衡量方法、仪器的精密度 。
公式:
1,1.单位不同时组间变异程度的比较 。
表 5 体脂 ( % )与胆固醇 ( m m o l )的变异系数
指标 X S C V ( % )
体脂 ( % ) 1 8, 9 0 5, 8 0 3 0, 6 9
胆固醇 ( m m o l ) 4, 8 4 1, 0 4 2 1, 4 0
X S
? 某地不同年龄组男童身高( cm)
? 年龄组 S CV%
? 1-2月 56.3 2.1 3.73
? 5-6月 66.5 2.2 3.31
? 3-3.5岁 96.1 3.1 3.22
? 5-5.5岁 107.8 3.3 3.06
? 结论:随着年龄增加,身高的变异变小。
2.比较组单位相同,但均数相差悬殊的
组间变异程度比较,如表。
X
计量数据的统计描述小结
? 1,在医学杂志中,正态或近似正态资料,
常以 的形式表达,描述和比较 数据
的平均水平和离散程度。
? 例 两组患者年龄(岁)的比较
? 组别 n
? 试验组 12 45.9 ± 3.7
? 对照组 10 50.5 ± 13.0
? 两组患者随机化后基线情况的比较
SX ?
SX ?
? 2.偏态分布或特定资料(生存时间、病
程、潜伏期时间等)用中位数和四分位
间距描述。
? 表达形式,M,( QR)
? 3.等比数据和正偏态数据可用几何均数
和几何标准差描述
? 表达形式,G± SG
)
1
/)lg()( l g
(lg
22
1
?
???
? ?
n
nXX
S G
第二章 统计描述
第四节 正态分布
(Normal distribution)
正态分布( Normal Distribution)
? 概述:
? 正态分布是描述连续型 变量
值 分布的曲线,医学资料许
多服从正态分布。
?
? 直方图的频数分布与正态分布
? (见图 2-4)
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
12.00 14.50 17.00 19.50 22.00 24.50 27.00 29.50 32.00
D? ±? óa ?? ê? íè 2? ?? á| £¨k g £? 2? 2?
0
10
20
30
40
50
14- 16- 18- 20- 22- 24- 26- 28- 30- 32-
?? á| £¨k g £?
?μ
êy
£¨f
£?
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
12.0 14.5 17.0 19.5 22.0 24.5 27.0 29.5 32.0
图 2-4 频数分布与正态分布示意图
一、正态分布的概念和特征
? 1.正态分布曲线的数学函数表达式:
2)(
2
1
2
1
)( ?
?
??
?
?
?
X
eXf
X为连续随机变量,μ为 X值的总体均数,
σ2 为总体方差,记为 X~N( μ, σ2)
(-?>X< ?)
( 2-17)
2、正态分布曲线理论上的特征
? ( 1)以 X= μ为中心,μ左右 X值对称性减
少。
? ( 2)在 X= μ处曲线最高,f( X=μ)为最
大值。
? 3,μ, σ决定 正态分布曲线位置和形状
? 固定 σ,随 μ 不同,曲线位置不同,称 μ
为 位置参数,
? 固定 μ, σ越大,曲线形状不同,称 σ为
形状参数,正态分布是一个分布族。
图 2-5 正态分布参数位置变化示意图
图 2-6 正态分布变异度不同变化示意图
? 4.理论上,有中位数 =均数( μ)
? 5.任何正态分布的 X通过 u值 转换后,称为标
准化的正态分布,即 u ~N( μ=0, σ2=1)
2
2
2
1
)(
u
euf
?
?
?
?
??
?
X
u
标准正态分布方程 u为标准化变量值
三、正态曲线下面积(概率)的分
布及估计方法
? 1.曲线下 a?b区间面积的含义
? ( 1)表示 X值在 a?b区间占全部变量值的百
分比或表示 X值在 a?b区间出现的 概率 ( P)。
? ( 2) X在曲线下整个面积分布为 100%
? 或 X值在曲线范围内出现的概率为 1。
2.估计曲线下面积的方法
? 将变量值( X)转换为 u值后,查标准正
态分布表( P520),可估计曲线下 a?b区
间的面积。
dueu
u
u
2
2
2
1
)(
?
???
??
?
?
??
?
X
u
( 2-21)
()u? 表示从- ∞到 u值范
围内 X分布面积
标准正态分布曲线下面积
( ) 1 ( )uu? ? ? ? ?
6 8 2 6.01 5 8 7.0)8 4 1 3.0(
)1()1(
???
??????? uu
例:标准正态变量值 u=( -1,1)和 u=( -1.96
,1.96)区间的面积(概率)各为多少?
同理,u=( -2.58,2.58)区间的面积为 0.99
记为:
)(u?
有,
( 1, 9 6 ) ( 1, 9 6 )
0, 9 7 5 0, 0 2 5 0, 9 5
uu? ? ? ? ? ?
???
变量值分布
的范围表达
X占的百
分比 (%)
)1,1( ???? ??
)96.1,96.1( ???? ??
)58.2,58.2( ???? ??
68.27%
95.00%
99.00%
任意正态分布变量值 (X)理论上分布规律
3.医学常用的三个 X 分布范围及 u界值
( 1) X值分布范围
u0.05/2=1.96 (双侧) u0.01/2=2.58(双侧)
u0.05=1.64 (单侧) u0.01=2.33(单侧)
?
?u
( 2) 统计中常用尾部面积的 u值,记,称为 u
界值。
三、正态分布的应用
1.估计正态分布 X值在特定值范围内的
分布比例。例:
2.制定某临床指标的的参考值范围
3.利用 估计变量值的范围或
对极端值做取舍。
4.许多统计方法的统计推断建立在正
态分布基础上 。
SX 3?
例 2.14 101名正常成年女子的血清总胆
固醇, 。试估计
该总体正常女子血清总胆固醇在 4mmol/l以
下者的百分比。
? 解:假定该资料服从正态分布,将 X1=4
转换为 u值,查正态分布表
09.0
6 54.0
06.44
1 ??
????
?
?xu
用
??X
??S
0,6 5 4S ?lm m o lx /06.4?
查表
? 标准正态变量( u1) =- 0.09
?
4641.0)09.0( 1 ???? u
该地正常女子血清总胆固醇在
4mmol/l以下者的百分比为 46.41%。
145 例正常人体温实际分布和理论分布 (正态)比较
公式 体温值
分布范围
实际分布
频数 比例
( % )
理论分布
( % )
SX
SX
SX
58.2
96.1
1
?
?
? 36,23- 3 6.90
35,92- 3 7.22
35,71- 3 7.43
103
137
144
68.21
94.48
99.31
68.27
95.00
99.00
第五节 医学参考值范围的制定
? 一概念
? 医学参考值是指包括绝大多数, 正常
人, 的各种生理及生化指标常数, 也
称正常值 。
? 由于存在个体差异, 正常值并非为常
数, 而是在一定范围内波动, 医学上
常用 95%或 99%的分布范围作为判定
正常和异常的参考标准 。
? 二、医学参考值制定时注意问题:
? 1.确定诊断指标为“定性”或“定量”
? 2.有无“金标准方法”考核
? 3.计量资料考虑制定单侧诊断界值还
是双侧诊断界值
? 4.有足够的样本例数(一般不低于
100例)
?
三、计量资料参考值的制定
? 1.正态分布法(一般要对资料进
行正态性检验)
? 双侧 参考值范围公式:
? 单侧 参考值范围公式:
/2X u S??
SuX ??? SuX
???
下限值或 上限值
1 ??
1 ??
? 例 2-15 估计例 2-1某单位 101名正常成年
女子血清总胆固醇的参考值范围 。 假设
该资料服从正态分布 。
? 已知:
? 计算 95%的参考范围 ( 双侧 )
? 结论:正常成年女子血清总胆固醇 95%
的参考值范围为 2.78-5.34( mmol/l)
4,0 6 m m o l/ LX ? 0,6 5 4 m m o l/ LS ?
)34.5,78.2(
654.096.106.42/05.0
?
???? suX
2.百分位数法
? 偏态分布资料医学参考值范围的制定通
常采用百分位数法,。
? 双侧 参考值范围:
? 单侧 参考值范围:
1 ??
1 ??
10 0 / 2 10 0 10 0 / 2PP?? ??
100P ?? 10 0 10 0P ???
或
例:讲义
常用 α=0.05
上限值下限值
表 例,102名 3岁以下儿童 LgA含量
? 组段( d) 频数 累计频数 位次范围
? 0- 29 29 1-29
? 15- 32 61 30-61
? 30- 18 79 62-79
? 45- 14 93 80-93
? 60- 4 97 94-97
? 75- 0 97 97
? 90- 0 97 97
? 105- 2 99 98-99
? 120- 1 100 100
? 135- 2 102 101-102
? 合计 102
例,102名 3岁以下儿童 LgA含量
47.8664.22
8369.2796.191176.3196.1
8369.27,91176.31
??
????
??
SX
SX
该地 3岁以下儿童 LgA含量的分布最小、最
大范围为 0-135(单位),由上式可见,该
资料不服从正态分布。
变量值 95%的分布范围
正态分布要求
? 本节要求:
? 1.正态分布理论上的 4点特征
? 2.能正确使用标准正态分布表(利用 u值)
? 3.掌握正态分布的三个常用的分布规律。
? 小结:
? 正态分布法和百分位数法可以对个体做
评价,可以了解一定范围 X值的比例。
1.直接计算法
用 nX%确定 PX 的位次。
当 nX%带有小数位时:
trunc( a) 表示对数字取其整数。
当 nX%为整数时:
? ?? ?1%nXt r u n cX XP ??
? ? ? ?? ?1%nX%nXX XX2
1
P ???