计量资料的统计描述
第二章
第二节 集中趋势的描述(续)
二、几何均数 (Geometric mean)
? 适用条件,X值呈倍数增长或部分数据偏离
过大偏态分布(正偏态)资料 。
? 计算公式:
)
lg
(lg 1
n
X
X iG
?
? ?
)
lg
(lg 1
f
Xf
X iG
?
?
? ?
直接法,例数
较少用( 2-3)
加权法,(2-4)
12n nG X X X?

? 例 2-4 某地 5例微丝蚴血症患者治疗七
年后用间接荧光抗体试验测得其抗体滴
度分别为 1/10, 1/20, 1/40, 1/80,
1/160,求几何均数 。
5 1 0 2 0 4 0 4 0 1 6 0 3 4, 8G ? ? ? ? ? ?
11 lg l g 1 0 l g 2 0 l g 4 0 l g 4 0 l g 1 6 0l g ( ) l g ( ) 3 4, 8
5
X
G
n
?? ????? ? ??
结论:平均抗体滴度为 1,34(几何均数法)
表 2-4 69例 RA患者血清 EBV-lgG抗体测定结果
滴度倒数
X
人数
f
lgX flgX
10 4 1.0000 4.0000
20 3 1.3010 3.9030
40 10 1.6021 16.0210
80 10 1.9031 19.0310
160 11 2.2041 24.2451
320 15 2.5051 37.5765
640 14 2.8062 39.2868
1280 2 3.1072 6.2144
合计 69 150.2778
几何均数计算
? 例 2-5,例数合计
?
6.1 5 0)1 7 7 9.2(lg
)
69
2 7 7 8.1 5 0
(lg)
lg
(lg
1
11
??
?
?
?
?
?
??
f
Xf
X
i
G
结论,69例 RA患者血清 EBV-lgG抗体平均滴
度为 1,150.6
69?? f
2 7 7 8.1 5 0lg ?? xf
2 8 0, 8 6x ?
三、中位数( Median)和
百分位数 ( Percentile)
? 1.中位数( M),适用于描述偏态分布资料
的平均水平 。 应用:潜伏期、病程资料
? 计算定义:将一组变量值由小到大依次排
列,居以中间位次的观察值即为中位数,
为这组数据的平均数。
? X,5,5,6,7,20( d)
? 位次 1 2 3 4 5
2.百分位数
? 百分位数( percentile)是一种位置指标,
用 来表示。
? 计算定义:将一组变量值由小到大依次
排列,为第 x百分位数的秩次,
其对应的变量值( x)为第 x百分位数,
记为 Px,百分位数是一个界值。
xP
% x n?
X,1 5 8 10…….105
秩次 1 2 3 4 100
nX%=1,2,3 4…… 100
n=100
50pM?
47.542.537.532.527.522.517.512.57.52.5
?μê
y

¨f£
?
30
20
10
0
如 P5=10 P50=M(中位数)
计算方法
? 1.直接法
? 将样本值由小到大排队,用 确定 Px的
位次和 PX。
? 当 为带有小数位时用式 2.7:
? 当 为整数时 用式 2.8
( % ) ( % 1 )
1
2X n X n X
P X X ???????
[ t r u n c ( % ) 1 ]X n XPX ??
%nX
%nX
trunc( a)表示对数字取其整数。
式 2.8
式 2.7
%nX
? 例,8位患者某病的住院天数:
? 2 2 2 3 3 4 5 6
? 求 50%位数和 80%位数。
? 解:第 50%位次,nX%=8× 0.5=4,用式 2.8
? 中位数 =P50=3(天)
? 第 80%位次,nX%=8× 0.8=6.4,用公式 2.7
8 0 [ ( 6, 4 ) 1 ] 7 5t r u n cp x x?? ? ? (天)
2.频数表法
)%( L
x
x
XX fXn
f
i
LP ?????
L:第 X%位数所在组段的下限值
i:第 X%位数所在组段的组距
f:第 X%位数所在组段的频数
,第 X%位数所在组段上个组
段的累计频数
Lf?
式中,
表 2-5 118名链球菌咽喉炎患者的潜伏期
天数 人数 累计频数 累计频数 %
12~ 4 1-4 3.4
24~ 17 5-21 17.8
36~ 32 22-53 44.9
48~ 24 54-77 65.3
60~ 18 95 80.5
72~ 12 107 90.7
84~ 5 112 94.9
96~ 4 116 98.3
108- 2 118 100.0
频数表资料百分位数的计算(公式 2-9)
50
1 2 1 1 8
4 8 ( 5 3 ) 5 1 ( )
2 4 2
MP ? ? ? ? ? 天
59 5, 0 118 %? ? ? ?x n
25
12
3 6 ( 1 1 8 2 5 % 2 1 ) 3 9,2 ( )
32
P ? ? ? ? ? 天
5.2925.01 1 8% ???? Xn
1.计算 x=50%的位次
2.按公式 2-9计算
中位数和百分位数的应用
? 偏态分布资料用常用 P25%,P50%,P75%的数据
描述不同位置的值和做比较。
? 生存分析中,如同一位置百分位数值越大,
说明生存时间越长。
? 例
? 儿科白血病患者生存时间(周)
? 生存时间百分位数
? 类型 例数 X25% X50% X75%
? ALL 542 32 73 146
? AUL 369 30 70 134
? AML 107 9 25 60
第三节、离散趋势的描述
? 描述计量资料数据间离散程
度的指标 —变异指标
? 常用的指标有:
? 极差, 四分位间距,
? 方差、标准差、变异系数
几个常用的变异指标
? 一,极差( Range):用( R)表示,
即一组数据的 R=最大值 –最小值
? 意义,R值越大,表示该组数据的变异
越大。
? 缺点:数据利用不全,部分信息损失,
在例数少时结果不稳定。
? 例 2-10 三组同龄男孩的身高值( cm)
? R
? 甲组 90 95 100 105 110 100 20
? 乙组 96 98 100 102 104 100 8
? 丙组 96 99 100 101 104 100 8
x
二、四分位数间距
? 四分位数间距:常用 QR表示,
? 计算:用百分位数法计算数据第 75%与第
25%位数之差。 QR=P75%-P25%
? 作为变异指标比极差稳定。 常用于表示偏
态分布资料的变异。
? 例,QR= P75%-P25% =67.7- 39.2=28.5(天)
? 表示方法,Md( QR)
? M=51天,( QR=28.5天)
三,标准差和方差
( Standard deviation and variance)
公式
2()X
N
?
?
?
? ?
2
2 ()X
N
?
?
?
? ?
标准差
2? ?
方差
总体方差 总体标准差
标准差计算公式
2()
1
XX
S
n
?
?
?
?
2()X
N
?
?
?
? ? 总体(理论)
样本标
准差
标准差的简化计算公式:
1
/)( 22
?
???
?
n
nXX
S
1
/)(
22
??
????
?
f
ffXfX
S
( 2-14)
例数较少
( 2-15)
频数表
资料
例 2-10 甲组 5名同龄男孩的身高值( cm)
? X X2
? 90 8100
? 95 9025
? 100 10000
? 105 11025
? 110 12100
?
500?? X 5 0 2 5 02 ?? X
91.7
15
5/)500(50250 2 ?
?
??S
1
/)( 22
?
????
n
nXXS
100?x
? 例 2-10 三组同龄男孩的身高值( cm)
? R S
? 甲组 90 95 100 105 110 100 20 7.91
? 乙组 96 98 100 102 104 100 8 3.16
? 丙组 96 99 100 101 104 100 8 2.92
? 标准差的意义:
? 反映一组数据平均的离散水平,单位相同
时,S越小,表示数据的变异程度越小,同
时表示该组均数的代表性越大。
x
表 2-1 101名正常女子血清胆固醇值
组段 ( X) 频数( f) fX fx 2
2.30~ 2.45 1 2.45 6.00
2.60~ 2.75 3 8.25 22.69
2.90~ 3.05 6 18.30 55.82
3.20~ 3.35 8
3.50~ 3.65 17
3.80~ 3.95 20
4.10~ 4.25 17
4.40~ 4.55 12
4.70~ 4.85 9
5.00~ 5.15 5
5.30~ 5.45 2
5.6-5.9 5.75 1
21 0 1,4 0 9, 7 5,1 7 0 5, 0 9f f X f X? ? ? ? ? ?
2( 4 0 9, 7 5 )
1 7 0 5, 0 9
101 0, 6 5 4 ( m m o l /L)
1 0 1 1
S
?
??
?
1
/)(
22
??
????
?
f
ffXfX
S
四、变异系数 (CV)
%100??
X
S
CV
应用, 1.单位不同时组间变异程度的比较 。
2.比较组单位相同,但均数相差悬殊
的组 间变异程度,
意义,CV越大,表示数据变异越大。
常用于衡量方法、仪器的精密度 。
公式:
1,1.单位不同时组间变异程度的比较 。
表 5 体脂 ( % )与胆固醇 ( m m o l )的变异系数
指标 X S C V ( % )
体脂 ( % ) 1 8, 9 0 5, 8 0 3 0, 6 9
胆固醇 ( m m o l ) 4, 8 4 1, 0 4 2 1, 4 0
X S
? 某地不同年龄组男童身高( cm)
? 年龄组 S CV%
? 1-2月 56.3 2.1 3.73
? 5-6月 66.5 2.2 3.31
? 3-3.5岁 96.1 3.1 3.22
? 5-5.5岁 107.8 3.3 3.06
? 结论:随着年龄增加,身高的变异变小。
2.比较组单位相同,但均数相差悬殊的
组间变异程度比较,如表。
X
计量数据的统计描述小结
? 1,在医学杂志中,正态或近似正态资料,
常以 的形式表达,描述和比较 数据
的平均水平和离散程度。
? 例 两组患者年龄(岁)的比较
? 组别 n
? 试验组 12 45.9 ± 3.7
? 对照组 10 50.5 ± 13.0
? 两组患者随机化后基线情况的比较
SX ?
SX ?
? 2.偏态分布或特定资料(生存时间、病
程、潜伏期时间等)用中位数和四分位
间距描述。
? 表达形式,M,( QR)
? 3.等比数据和正偏态数据可用几何均数
和几何标准差描述
? 表达形式,G± SG
)
1
/)lg()( l g
(lg
22
1
?
???
? ?
n
nXX
S G