00级七年制,医学统计学,Dr,宇传华 制作第二章 统计描述
Descriptive Statistics
00级七年制,医学统计学,Dr,宇传华 制作第一节 计量资料的统计描述第二节 正态分布第三节 计数资料的统计描述第四节 统计表与统计图本章结构
2009年 7月 28日第四军医大学卫生统计学教研室第一节 计量资料的统计描述
频数表与频数分布
平均指标(算术均数、几何均数、中位数、众数)
变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)
2009年 7月 28日第四军医大学卫生统计学教研室一、频数表与频数分布
(frequency table and frequency distribution)
2009年 7月 28日第四军医大学卫生统计学教研室表 2-1 160名正常成年女子的血清甘油三酯( mmol/L)
编号 血清甘油三脂 编号 血清甘油三脂
1 0.51 … …
2 0.52 153 1.65
3 0.59 154 1.66
4 0.61 155 1.67
5 0.61 156 1.67
6 0.62 157 1.69
7 0.63 158 1.7
8 0.64 159 1.71
… … 160 1.77
2009年 7月 28日第四军医大学卫生统计学教研室
1,频数表的编制步骤
( 1)求 极差 ( range):即最大值与最小值之差,又称为全距。
本例极差,R=1.77- 0.51=1.26( mmol/L)
( 2) 决定 组数,组段 和 组距,根据研究目的和样本含量
n确定。组距 =极差 /组数,通常分 10-15个组,为方便计,
组距参考极差的十分之一,再略加调整。
本例 i= R /10=1.26/10=0.126≈0.1。
( 3) 列出组段:第一组段的 下限略小于最小值,最后一个组段 上限必须包含最大值,其它组段上限值忽略。
( 4) 划记计数,用划记法将所有数据归纳到各组段,得到各组段的频数。
2009年 7月 28日第四军医大学卫生统计学教研室组段
( 1)
划 记
( 2)
频数,f
( 3)
组中值,X
( 4)
fX
(5)= (3)× (4)
0.5~ 3 0.55 1.65
0.6~ 正 9 0.65 5.85
0.7~ 正正 12 0.75 9.00
0.8~ 正正 13 0.85 11.05
0.9~ 正正正 17 0.95 16.15
1.0~ 正正正 18 1.05 18.90
1.1~ 正正正正 20 1.15 23.00
1.2~ 正正正 18 1.25 22.50
1.3~ 正正正 17 1.35 22.95
1.4~ 正正 13 1.45 18.85
1.5~ 正 9 1.55 12.40
1.6~ 正 8 1.65 14.85
1.7~ 1.8
合计
3 1.75 5.25
160 182.30
2009年 7月 28日第四军医大学卫生统计学教研室
2,频数表的分布特征
① 集中趋势 (central tendency):变量值集中位置。本例在组段,1.1~”。
—— 平均水平指标
②离散趋势 (tendency of dispersion):变量值围绕集中位置的分布情况。本例 0.9~ 1.4
,共有 90人,占 56%;离“中心”位置越远
,频数越小;且围绕“中心”左右对称。
—— 变异水平指标
2009年 7月 28日第四军医大学卫生统计学教研室
3,正态分布与偏态分布
1,表 2- 2频数表 —— 正态分布 normal
distribution (图 2-1)
2,表 2- 3频数表 —— 右偏态( skewed to the
right),也称正偏态( positive skewed)(
图 2-2)
3,表 2- 4频数表 —— 左偏态( skewed to the
left),也称负偏态( negative skewed)(
图 2-3)
2009年 7月 28日第四军医大学卫生统计学教研室图2-1 160名正常成年女子的血清甘油三酯的频数分布图
0
5
10
15
20
25
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90
血清甘油三酯( m m o l / L )
频数图 2 - 2 5 9 名 链 球 菌 咽 喉 炎 患 者 的 潜 伏 期 ( h )
0
2
4
6
8
1 0
1 2
1 4
1 6
1 8
1 2 2 4 3 6 4 8 6 0 7 2 8 4 9 6 1 0 8 1 2 0
潜 伏 期 ( h )
病例数图 2 - 3 1 0 1 名 正 常 人 的 血 清 肌 红 蛋 白 含 量
0
5
1 0
1 5
2 0
2 5
0 5 1 0 1 5 2 0 2 5 3 0 3 5 4 0 4 5 5 0
肌 红 蛋 白 含 量 ( u g / m L )
人数正态分布:中间高、
两边低、左右对称正偏态分布:
长尾向 右 延伸负偏态分布:
长尾向 左 延伸
2009年 7月 28日第四军医大学卫生统计学教研室
a,尖峭峰
b.正态峰
c.平阔峰
2009年 7月 28日第四军医大学卫生统计学教研室二、平均指标总称为 平均数 ( average)反映了资料的集中趋势( central tendency )。常用的有:
1,算术均数 (arithmetic mean),简称 均数
(mean)
2,几何均数 (geometric mean)
3.中位数 (median)
4,众数 ( mode)
2009年 7月 28日第四军医大学卫生统计学教研室
1,均数( mean)
n
X
n
XXXX n21
i
i
k
kk
f
fX
ffff
XffXfXXfX



321
3211
Σ 为求和符号,读成 sigma
适用条件,资料呈正态或近似正态

2009年 7月 28日第四军医大学卫生统计学教研室组段
( 1)
划 记
( 2)
频数,f
( 3)
组中值,X
( 4)
fX
(5)= (3)× (4)
0.5~ 3 0.55 1.65
0.6~ 正 9 0.65 5.85
0.7~ 正正 12 0.75 9.00
0.8~ 正正 13 0.85 11.05
0.9~ 正正正 17 0.95 16.15
1.0~ 正正正 18 1.05 18.90
1.1~ 正正正正 20 1.15 23.00
1.2~ 正正正 18 1.25 22.50
1.3~ 正正正 17 1.35 22.95
1.4~ 正正 13 1.45 18.85
1.5~ 正 9 1.55 13.95
1.6~ 正 8 1.65 13.20
1.7~ 1.8
合计
3 1.75 5.25
160 182.30
均数=
182.3/160=
1.14
2009年 7月 28日第四军医大学卫生统计学教研室
2,几何均数( geometric mean)
n
X
X
n
X
XXX
n
X
XXXX
G
nG
n
nG

lg
lg
lg
)lglg( l g
1
lg
1
21
21
为正值,
为底的反对数表示以为底的对数;表示以
0
10lg
10lg
1
X
几何均数,变量对数值的 算术均数 的反对数 。
2009年 7月 28日第四军医大学卫生统计学教研室几何均数的适用条件与实例适用条件,呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料血清的抗体效价滴度的 倒数 分别为,10,100、
1000,10000,100000,求几何均数。
1 0 0 0
5
10lg10lg10lg10lg10lglg 543211?


G
此例的算术均数为 22222,显然不能代表滴度的平均水平。同一资料,几何均数 <均数
2009年 7月 28日第四军医大学卫生统计学教研室频数表资料的几何均数






i
nn
i
ii
f
XfXfXf
f
XfG lglglglglglg 221111?
抗体滴度

人数,f

滴度倒数,X

lgX

f·lgX

1:2.5
1:10
1:40
1:160
1:640
合计
14
18
22
12
6
72
2.5
10.0
40.0
160.0
640.0
0.3979
1.0000
1.6021
2.2041
2.8062
5.5706
18.0000
35.2462
26.4492
16.8372
102.1032
2009年 7月 28日第四军医大学卫生统计学教研室
3,中位数( median)
中位数 是将一批数据 从小至大排列 后 位次居中 的数据值,符号为 Md,反映一批观察值在 位次 上的平均水平。
适用条件,适合各种类型的资料。尤其适合于① 大样本偏态分布 的资料; ②资料有 不确定数值 ;③资料 分布不明 等。
2009年 7月 28日第四军医大学卫生统计学教研室中位数计算公式与实例先将观察值按 从小到大顺序排列,再按以下公式计算:

为偶数为奇数
nxx
nx
Md
nn
n
22/12/
2/)1(
特点:仅仅利用了中间的 1~ 2个数据
2009年 7月 28日第四军医大学卫生统计学教研室频数表资料的中位数
m
L
f
fn
iLMd
n
Md
)%50(
)%50(




值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值下限值 L 上限值 U
i; fm
中位数 Md
)%50( Lfn
2009年 7月 28日第四军医大学卫生统计学教研室组段
( 1)
划 记
( 2)
频数,f
( 3)
累计频数?f
( 4)
累计百分率
0.5~ 3 3 1.9 ( 0~ 1.9)
0.6~ 正 9 12 7.5 ( 1.9~ 7.5)
0.7~ 正正 12 24 15.0 ( 7.5~ 15.0)
0.8~ 正正 13 37 23.1 ( 15.2~ 23.1)
0.9~ 正正正 17 54 33.8 ( 23.1~ 33.8)
1.0~ 正正正 18 72 45.0 ( 33.8~ 45.0)
1.1~ 正正正正 20 92 57.5 ( 45.0~ 57.5)
1.2~ 正正正 18 110 68.8 ( 57.5~ 68.8)
1.3~ 正正正 17 127 79.4 ( 68.8~ 79.4)
1.4~ 正正 13 140 87.5 ( 79.4~ 87.5)
1.5~ 正 9 149 93.1 ( 87.5~ 93.1)
1.6~ 正 8 157 98.1 ( 93.1~ 98.1)
1.7~ 1.8
合计
3 160 100.0 ( 98.1~ 100)
160
中位数= 1.1+0.1x[(160x50%- 72)/20]
= 1.14
2009年 7月 28日第四军医大学卫生统计学教研室
4,众数( mode)
出现次数(或频数)最多的观察值;
在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。
2009年 7月 28日第四军医大学卫生统计学教研室均数、中位数、众数三者关系正态分布 时,均数=中位数=众数正偏态分布 时,均数 >中位数 >众数负偏态分布 时,均数 <中位数 <众数
2009年 7月 28日第四军医大学卫生统计学教研室
2009年 7月 28日第四军医大学卫生统计学教研室三、变异( variation)指标反映数据的离散度( Dispersion )。即个体观察值的变异程度。常用的指标有:
1,极差 (Range) (全距 )
2,百分位数与四分位数间距
Percentile and Quartile range
3,方差 Variance
4,标准差 Standard Deviation
5,变异系数 Coefficient of Variation
2009年 7月 28日第四军医大学卫生统计学教研室三、变异( variation)指标盘编号 甲 乙 丙
1 440 480 490
2 460 490 495
3 500 500 500
4 540 510 505
5 560 520 510
合计 2500 2500 2500
均数 500 500 500
例:设甲,乙,丙三人,采每人的耳垂血,然后红细胞计数,每人数 5个计数盘,得结果如下 ( 万 /mm3)
4 2 0
4 4 0
4 6 0
4 8 0
5 0 0
5 2 0
5 4 0
5 6 0
5 8 0
甲 乙 丙
2009年 7月 28日第四军医大学卫生统计学教研室
1.极差 (Range) (全距 )
m i nm a x XXR
4 2 0
4 4 0
4 6 0
4 8 0
5 0 0
5 2 0
5 4 0
5 6 0
5 8 0
优点:简便缺点,1,只利用了两个极端值
2.n大,R也会大
3.不稳定 120 40 20
2009年 7月 28日第四军医大学卫生统计学教研室
2.百分位数与四分位数间距
Percentile and quartile range
百分位数,数据从小到大 排列 ;在百分尺度下,所占百分比对应的值。记为 Px。
四分位间距,
QR= P75- P25
四分位半间距
quartile deviation
,QD= QR/2
0 %
2 0 %
4 0 %
6 0 %
8 0 %
1 0 0 %
0
P100(max)
P75
P50(中位数 )
P25
P0(min)
Px
2009年 7月 28日第四军医大学卫生统计学教研室频数表资料的百分位数
m
L
x
x
f
fxn
iLP
xn
P
)%(
)%(




值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值下限值 L 上限值 U
i; fm
百分位数 Px
)%( Lfxn
2009年 7月 28日第四军医大学卫生统计学教研室组段
( 1)
划 记
( 2)
频数,f
( 3)
累计频数?f
( 4)
累计百分率
0.5~ 3 3 1.9 ( 0~ 1.9)
0.6~ 正 9 12 7.5 ( 1.9~ 7.5)
0.7~ 正正 12 24 15.0 ( 7.5~ 15.0)
0.8~ 正正 13 37 23.1 ( 15.2~ 23.1)
0.9~ 正正正 17 54 33.8 ( 23.1~ 33.8)
1.0~ 正正正 18 72 45.0 ( 33.8~ 45.0)
1.1~ 正正正正 20 92 57.5 ( 45.0~ 57.5)
1.2~ 正正正 18 110 68.8 ( 57.5~ 68.8)
1.3~ 正正正 17 127 79.4 ( 68.8~ 79.4)
1.4~ 正正 13 140 87.5 ( 79.4~ 87.5)
1.5~ 正 9 149 93.1 ( 87.5~ 93.1)
1.6~ 正 8 157 98.1 ( 93.1~ 98.1)
1.7~ 1.8
合计
3 160 100.0 ( 98.1~ 100)
160
P25= 0.9+0.1x[(160x25%- 37)/17]= 0.92
P75= 1.3+0.1x[(160x75%- 110)/17]= 1.36
QR= 1.36-0.92= 0.44; QD= 0.22
2009年 7月 28日第四军医大学卫生统计学教研室百分位数的应用
确定医学 参考值范围 ( reference range):
如 95%参考值范围= P97.5- P2.5;
表示有 95%正常 个体 的测量值在此范围。
中位数 Md与 四分位半间距 QD一起使用,描述偏态分布资料的特征
2009年 7月 28日第四军医大学卫生统计学教研室
3.方差方差 ( variance)也称 均方差 ( mean
square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。
N
X
XlSS
X
xx



2
2
2
)-(
)-()s q u a r e of s u m(
0)-(

总体方差离均差平方和离均差和

11
)( 2222 ∑

n
nXX
n
XXS =样本方差
2009年 7月 28日第四军医大学卫生统计学教研室样本方差为什么要除以( n- 1)
与自由度( degrees of freedom)有关。
自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则 n个数据可取任意值,称为有 n个自由度
。若受到 k个条件的限制,就只有( n- k)个自由度了。
计算标准差时,n个变量值本身有 n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的( n
- 1)个“离均差”表示,所以只有( n- 1)个独立的“
离均差”。因此只有( n- 1)个自由度。

11
)( 2222 ∑

n
nXX
n
XXS =样本方差
2009年 7月 28日第四军医大学卫生统计学教研室离均差和 Σ (X-?)=0
2009年 7月 28日第四军医大学卫生统计学教研室
4.标准差

11
)(
222∑

n
nXX
n
XXS =样本标准差标准差 ( standard deviation)即方差的正平方根;其单位与原变量 X的单位相同。

1
22

f
ffXfX
S频数表样本标准差
2009年 7月 28日第四军医大学卫生统计学教研室标准差的计算盘编号 甲 乙 丙 甲 2 乙 2 丙 2
1 440 480 490 193600 230400 240100
2 460 490 495 211600 240100 245025
3 500 500 500 250000 250000 250000
4 540 510 505 291600 260100 255025
5 560 520 510 313600 270400 260100
合计 2500 2500 2500 1260400 1251000 1250250
标准差 50.99 15.81 7.91
99.50
15
5/25001 2 6 0 4 0 0
1
222
=甲的标准差n nXXS
2009年 7月 28日第四军医大学卫生统计学教研室组段
( 1)
频数,f
( 3)
组中值,X
( 4)
fX
(5)= (3)× (4)
fX2
(5)= (3)× (4) 2
0.5~ 3 0.55 1.65 0.91
0.6~ 9 0.65 5.85 3.80
0.7~ 12 0.75 9.00 6.75
0.8~ 13 0.85 11.05 9.39
0.9~ 17 0.95 16.15 15.34
1.0~ 18 1.05 18.90 19.85
1.1~ 20 1.15 23.00 26.45
1.2~ 18 1.25 22.50 28.13
1.3~ 17 1.35 22.95 30.98
1.4~ 13 1.45 18.85 27.33
1.5~ 9 1.55 13.95 21.62
1.6~ 8 1.65 13.20 21.78
1.7~ 1.8
合计
3 1.75 5.25 9.19
160 182.30 221.52
方差= (221.52- 182.302/160)/(160-1)=
0.0869
标准差= 0.29
2009年 7月 28日第四军医大学卫生统计学教研室
5,变异系数
%100 XSCV
变异系数 (coefficient of variation,CV)
适用条件,①观察指标单位不同,如身高、体重
②同单位资料,但均数相差悬殊均数 标准差 变异系数青年男子 身高 170 cm 6 cm 3.5%
体重 60 kg 7 kg 11.7%
2009年 7月 28日第四军医大学卫生统计学教研室变异指标小结
1.极差较粗,适合于任何分布
2,标准差 与均数的单位相同,最常用,适合于近似正态分布
3.变异系数主要用于单位不同或均数相差悬殊资料
4.平均指标和变异指标分别反映资料的不同特征,
常配套使用 如 正态分布,均数、标准差;
偏态分布,中位数、四分位半间距