第四章 数据特征
与统计描述
Descriptive Statistics
第一节 频数分布表与频数分布图
第二节 计量资料的常用统计指标
第三节 计数资料的常用统计指标
第四节 统计表与统计图
第五节 正 态分布与医学参考值
本章结构
第一节 频数分布表与频数分布图
?频数表与频数分布
?平均指标(算术均数、几何均数、中
位数、众数)
?变异指标(极差、百分位数与四分位
间距、方差、标准差、变异系数)
一、频数表与频数分布
(frequency table and frequency distribution)
表 4-1 160名正常成年女子的血清
甘油三酯( mmol/L)
编号 血清甘油三脂 编号 血清甘油三脂
1 0.51 … …
2 0.52 153 1.65
3 0.59 154 1.66
4 0.61 155 1.67
5 0.61 156 1.67
6 0.62 157 1.69
7 0.63 158 1.7
8 0.64 159 1.71
… … 160 1.77
1,频数表的编制步骤
( 1)求 极差 ( range):即最大值与最小值之差,又称
为全距。
本例极差,R=1.77- 0.51=1.26( mmol/L)
( 2) 决定 组数, 组段 和 组距,根据研究目的和样本含量
n确定。组距 =极差 /组数,通常分 10-15个组,为方便计,
组距参考极差的十分之一,再略加调整。
本例 i= R /10=1.26/10=0.126≈0.1。
( 3) 列出组段:第一组段的 下限略小于最小值,最后一
个组段 上限必须包含最大值,其它组段上限值忽略。
( 4) 划记计数,用划记法将所有数据归纳到各组段,得
到各组段的频数。
组段
( 1)
划 记
( 2)
频数,f
( 3)
组中值,X
( 4)
fX
(5)= (3)× (4)
0.5~ 3 0.55 1.65
0.6~ 正 9 0.65 5.85
0.7~ 正正 12 0.75 9.00
0.8~ 正正 13 0.85 11.05
0.9~ 正正正 17 0.95 16.15
1.0~ 正正正 18 1.05 18.90
1.1~ 正正正正 20 1.15 23.00
1.2~ 正正正 18 1.25 22.50
1.3~ 正正正 17 1.35 22.95
1.4~ 正正 13 1.45 18.85
1.5~ 正 9 1.55 12.40
1.6~ 正 8 1.65 14.85
1.7~ 1.8
合计
3 1.75 5.25
160 182.30
2,频数表的分布特征
① 集中趋势 (central tendency):变量值集中
位置。本例在组段,1.1~”。
—— 平均水平指标
②离散趋势 (tendency of dispersion):变量
值围绕集中位置的分布情况。本例 0.9~ 1.4
,共有 90人,占 56%;离“中心”位置越远
,频数越小;且围绕“中心”左右对称。
—— 变异水平指标
3,频数表的用途
① 揭示计量资料的分布特征
②描述计量资料分布的集中趋势和离散趋势
③便于发现异常值
第二节 计量资料的常用统计指标
一、平均指标
总称为 平均数 ( average)反映了资料的集
中趋势( central tendency )。常用的
有:
1,算术均数 (arithmetic mean),简称 均数
(mean)
2,几何均数 (geometric mean)
3.中位数 (median)
4,众数 ( mode)
1,均数( mean)
n
X
n
XXXX n ?????? ?21
i
i
k
kk
f
fX
ffff
XffXfXXfX
?
??
????
?????
?
?
321
3211
Σ 为求和符号,读成 sigma
适用条件,资料呈正态或近似正态

组段
( 1)
划 记
( 2)
频数,f
( 3)
组中值,X
( 4)
fX
(5)= (3)× (4)
0.5~ 3 0.55 1.65
0.6~ 正 9 0.65 5.85
0.7~ 正正 12 0.75 9.00
0.8~ 正正 13 0.85 11.05
0.9~ 正正正 17 0.95 16.15
1.0~ 正正正 18 1.05 18.90
1.1~ 正正正正 20 1.15 23.00
1.2~ 正正正 18 1.25 22.50
1.3~ 正正正 17 1.35 22.95
1.4~ 正正 13 1.45 18.85
1.5~ 正 9 1.55 13.95
1.6~ 正 8 1.65 13.20
1.7~ 1.8
合计
3 1.75 5.25
160 182.30
均数=
182.3/160=
1.14
2,几何均数( geometric mean)
n
X
X
n
X
XXX
n
X
XXXX
G
nG
n
nG
?
?
?
?
?????
?
lg
lg
lg
)lglg( l g
1
lg
1
21
21
?
?
为正值,
为底的反对数表示以
为底的对数;表示以
0
10lg
10lg
1
?
?
X
几何均数, 变量
对数值的 算术均
数 的反对数 。
几何均数的适用条件与实例
适用条件,呈倍数关系的等比资料或对数正态分
布(正偏态)资料;如抗体滴度资料
血清的抗体效价滴度的 倒数 分别为,10,100、
1000,10000,100000,求几何均数。
1 0 0 0
5
10lg10lg10lg10lg10lglg 543211 ?
???
?
???
? ????? ?G
此例的算术均数为 22222,显然不能代表滴度的
平均水平。同一资料,几何均数 <均数
频数表资料的几何均数
???
?
???
? ???
???
?
?
???
?
? ??? ??
i
nn
i
ii
f
XfXfXf
f
XfG lglglglglglg 221111 ?
抗体滴度

人数,f

滴度倒数,X

lgX

f·lgX

1:2.5
1:10
1:40
1:160
1:640
合计
14
18
22
12
6
72
2.5
10.0
40.0
160.0
640.0
0.3979
1.0000
1.6021
2.2041
2.8062
5.5706
18.0000
35.2462
26.4492
16.8372
102.1032
3,中位数( median)
中位数 是将一批数据 从小至大排列 后 位
次居中 的数据值,符号为 Md,反映一批观
察值在 位次 上的平均水平。
适用条件, 适合各种类型的资料。尤其
适合于① 大样本偏态分布 的资料; ②资料
有 不确定数值 ;③资料 分布不明 等。
中位数计算公式与实例
先将观察值按 从小到大顺序排列, 再按以下公式计算:
? ???
?
?
?
?
?
为偶数
为奇数
nxx
nx
Md
nn
n
22/12/
2/)1(
特点:仅仅利用了中间的 1~ 2个数据
频数表资料的中位数
m
L
f
fn
iLMd
n
Md
)%50(
)%50(
???
???
??
??
值间的频数所在组段下限值至上限
至该下限值的累计频数
组距
所在组段下限值
下限值 L 上限值 U
i; fm
中位数 Md
)%50( Lfn ???
组段
( 1)
划 记
( 2)
频数,f
( 3)
累计频数 ?f
( 4)
累计百分率
0.5~ 3 3 1.9 ( 0~ 1.9)
0.6~ 正 9 12 7.5 ( 1.9~ 7.5)
0.7~ 正正 12 24 15.0 ( 7.5~ 15.0)
0.8~ 正正 13 37 23.1 ( 15.2~ 23.1)
0.9~ 正正正 17 54 33.8 ( 23.1~ 33.8)
1.0~ 正正正 18 72 45.0 ( 33.8~ 45.0)
1.1~ 正正正正 20 92 57.5 ( 45.0~ 57.5)
1.2~ 正正正 18 110 68.8 ( 57.5~ 68.8)
1.3~ 正正正 17 127 79.4 ( 68.8~ 79.4)
1.4~ 正正 13 140 87.5 ( 79.4~ 87.5)
1.5~ 正 9 149 93.1 ( 87.5~ 93.1)
1.6~ 正 8 157 98.1 ( 93.1~ 98.1)
1.7~ 1.8
合计
3 160 100.0 ( 98.1~ 100)
160
中位数= 1.1+0.1x[(160x50%- 72)/20]
= 1.14
4,众数( mode)
出现次数(或频数)最多的观察值;
在频数分布图中对应于高峰所在位置的
观察值。适用于大样本;较粗糙。
均数、中位数、众数三者关系
正态分布 时,均数=中位数=众数
正偏态分布 时,均数 >中位数 >众数
负偏态分布 时,均数 <中位数 <众数
二、变异( variation)指标
反映数据的离散度( Dispersion )。即
个体观察值的变异程度。常用的指标有:
1,极差 (Range) (全距 )
2,百分位数与四分位数间距
Percentile and Quartile range
3,方差 Variance
4,标准差 Standard Deviation
5,变异系数 Coefficient of Variation
盘编号 甲 乙 丙
1 440 480 490
2 460 490 495
3 500 500 500
4 540 510 505
5 560 520 510
合计 2500 2500 2500
均数 500 500 500
例:设甲, 乙, 丙三人, 采每人的耳垂血, 然后红细
胞计数, 每人数 5个计数盘, 得结果如下 ( 万 /mm3)
4 2 0
4 4 0
4 6 0
4 8 0
5 0 0
5 2 0
5 4 0
5 6 0
5 8 0
甲 乙 丙
1.极差 (Range) (全距 )
m i nm a x XXR ??
4 2 0
4 4 0
4 6 0
4 8 0
5 0 0
5 2 0
5 4 0
5 6 0
5 8 0
优点:简便
缺点,1,只利用了两个
极端值
2.n大,R也会大
3.不稳定 120 40 20
2.百分位数与四分位数间距
Percentile and quartile range
百分位数,数据从
小到大 排列 ;在百分
尺度下,所占百分比
对应的值。记为 Px。
四分位间距,
QR= P75- P25
四分位半间距
quartile deviation
,QD= QR/2
0 %
2 0 %
4 0 %
6 0 %
8 0 %
1 0 0 %
0
P100(max)
P75
P50(中位数 )
P25
P0(min)
Px
频数表资料的百分位数
m
L
x
x
f
fxn
iLP
xn
P
)%(
)%(
???
???
??
??
值间的频数所在组段下限值至上限
至该下限值的累计频数
组距
所在组段下限值
下限值 L 上限值 U
i; fm
百分位数 Px
)%( Lfxn ???
组段
( 1)
划 记
( 2)
频数,f
( 3)
累计频数 ?f
( 4)
累计百分率
0.5~ 3 3 1.9 ( 0~ 1.9)
0.6~ 正 9 12 7.5 ( 1.9~ 7.5)
0.7~ 正正 12 24 15.0 ( 7.5~ 15.0)
0.8~ 正正 13 37 23.1 ( 15.2~ 23.1)
0.9~ 正正正 17 54 33.8 ( 23.1~ 33.8)
1.0~ 正正正 18 72 45.0 ( 33.8~ 45.0)
1.1~ 正正正正 20 92 57.5 ( 45.0~ 57.5)
1.2~ 正正正 18 110 68.8 ( 57.5~ 68.8)
1.3~ 正正正 17 127 79.4 ( 68.8~ 79.4)
1.4~ 正正 13 140 87.5 ( 79.4~ 87.5)
1.5~ 正 9 149 93.1 ( 87.5~ 93.1)
1.6~ 正 8 157 98.1 ( 93.1~ 98.1)
1.7~ 1.8
合计
3 160 100.0 ( 98.1~ 100)
160
P25= 0.9+0.1x[(160x25%- 37)/17]= 0.92
P75= 1.3+0.1x[(160x75%- 110)/17]= 1.36
QR= 1.36-0.92= 0.44; QD= 0.22
百分位数的应用
?确定医学 参考值范围 ( reference range):
如 95%参考值范围= P97.5- P2.5;
表示有 95%正常 个体 的测量值在此范围。
?中位数 Md与 四分位半间距 QD一起使用,描
述偏态分布资料的特征
3.方差
方差 ( variance)也称 均方差 ( mean
square deviation),样本观察值的离均差平方
和的均值。表示一组数据的平均离散情况。
N
X
XlSS
X
xx



2
2
2
)-(
)-()s q u a r e of s u m(
0)-(
?
?
?
?
?
??
?
总体方差
离均差平方和
离均差和
? ?
11
)( 2222 ∑
?
?
?
?? ? ?
n
nXX
n
XXS =样本方差
样本方差为什么要除以( n- 1)
与自由度( degrees of freedom)有关。
自由度是数学名词,在统计学中,n个数据如不受任
何条件的限制,则 n个数据可取任意值,称为有 n个自由度
。若受到 k个条件的限制,就只有( n- k)个自由度了。
计算标准差时,n个变量值本身有 n个自由度。但受到样
本均数的限制,任何一个“离均差”均可以用另外的( n
- 1)个“离均差”表示,所以只有( n- 1)个独立的“
离均差”。因此只有( n- 1)个自由度。
? ?
11
)( 2222 ∑
?
?
?
?? ? ?
n
nXX
n
XXS =样本方差
离均差和 Σ (X- ?)=0
4.标准差
? ?
11
)(
222∑
?
?
?
?? ? ?
n
nXX
n
XXS =样本标准差
标准差 ( standard deviation)即方差的正平
方根;其单位与原变量 X的单位相同。
? ?
1
22
?
?
?
?
? ??
f
ffXfX
S频数表样本标准差
标准差的计算
盘编号 甲 乙 丙 甲 2 乙 2 丙 2
1 440 480 490 193600 230400 240100
2 460 490 495 211600 240100 245025
3 500 500 500 250000 250000 250000
4 540 510 505 291600 260100 255025
5 560 520 510 313600 270400 260100
合计 2500 2500 2500 1260400 1251000 1250250
标准差 50.99 15.81 7.91
? ? 99.50
15
5/25001 2 6 0 4 0 0
1
222
=甲的标准差 ?????? ? ?n nXXS
组段
( 1)
频数,f
( 3)
组中值,X
( 4)
fX
(5)= (3)× (4)
fX2
(5)= (3)× (4) 2
0.5~ 3 0.55 1.65 0.91
0.6~ 9 0.65 5.85 3.80
0.7~ 12 0.75 9.00 6.75
0.8~ 13 0.85 11.05 9.39
0.9~ 17 0.95 16.15 15.34
1.0~ 18 1.05 18.90 19.85
1.1~ 20 1.15 23.00 26.45
1.2~ 18 1.25 22.50 28.13
1.3~ 17 1.35 22.95 30.98
1.4~ 13 1.45 18.85 27.33
1.5~ 9 1.55 13.95 21.62
1.6~ 8 1.65 13.20 21.78
1.7~ 1.8
合计
3 1.75 5.25 9.19
160 182.30 221.52
方差= (221.52- 182.302/160)/(160-1)=
0.0869
标准差= 0.29
5,变异系数
%100?? XSCV
变异系数 (coefficient of variation,CV)
适用条件,①观察指标单位不同,如身高、体重
②同单位资料,但均数相差悬殊
均数 标准差 变异系数
青年男子 身高 170 cm 6 cm 3.5%
体重 60 kg 7 kg 11.7%
变异指标小结
1.极差较粗,适合于任何分布
2,标准差 与均数的单位相同,最常用,适合于近似正态分布
3.变异系数主要用于单位不同或均数相差悬殊资料
4.平均指标和变异指标分别反映资料的不同特征,
常配套使用 如 正态分布,均数、标准差;
偏态分布,中位数、四分位半间距
第三节 计数资料的常用统计指标
计数资料(定性资料),将观察单位按某种
属性或类别分组计数,分组汇总各组观察
单位数后而得到的资料。
表 2 - 7 老年人白内障的年龄分布及患病率
年龄组

受检人数

白内障例数

患者年龄构成比( % )

患病率( % )

560
441
296
149
22
68
129
135
97
19
1 5, 1 8
2 8, 7 9
3 0, 1 3
2 1, 6 5
4, 2 4
1 2, 1 4
2 9, 2 5
4 5, 6 1
6 5, 1 0
8 6, 3 6
40 ~
50 ~
60 ~
70 ~
≥ 80
合 计 1468 448 1 0 0, 0 0 3 0, 5 2
一、常用相对数指标
相对数:两个有联系的指标之比 。
常用的相对数有:
( 一 ) 比
( 二 ) 比率与构成比
( 三 ) 速率
( 一 ) 率 ( rate)
说明某现象或某事物发生的频率或强度 。 可用
100%( 百分率 ), 1000 ‰ ( 千分率 ), 10000
( 万分率 ), 100000( 十万分率 ) 来表示 。
比例基数单位总数可能发生该现象的观察 单位数实际发生某现象的观察率 ??
例 1999年某幼儿园有 36名儿童患了腮腺炎,
该幼儿园共有 200名儿童 ( 其中 25名儿童以前患
过 ), 求该幼儿园 1999年腮腺炎的发病率 。
腮腺炎发病率 =
%57.20%100
25200
36 ??
?
率的正确使用需要注意以下几点:
( 1) 分子为阳性数, 分母为 ( 阳性 +阴性数 ) 。
( 2) 当计算麻疹这样具有终生免疫力的传染病
发病率时, 分母不应该包括已患过麻疹或腮腺炎
的那部分人 。
( 3) 率只与本身的频率或强度有关, 而不受其
它数据的影响 。 如某地红眼病的流行不会导致该
地肝癌死亡率下降或上升 。
( 二 ), 构成比 ( proportion)
表示某一事物内部各组成部分在全体中所占
的比重, 又称百分比 。 各组分所占比重之和必为
100%。
100%??某一组成部分的观察单位数百分比 同一事物各组成部分的观察单位总数
设某事物个体数的合计由 A1,A2,···,Ak个部分
组成, 构成比的计算为:
100%
k
A
A A A?? ? ? ? ?
1
12
构成比1 ++
100%
k
A
A A A?? ???
2
12
构成比2 + + +
100%k
k
Ak
A A A?? ???12构成比 + + +
...
表 2 - 7 老年人白内障的年龄分布及患病率
年龄组

受检人数

白内障例数

患者年龄构成比( % )

患病率( % )

560
441
296
149
22
68
129
135
97
19
1 5, 1 8
2 8, 7 9
3 0, 1 3
2 1, 6 5
4, 2 4
1 2, 1 4
2 9, 2 5
4 5, 6 1
6 5, 1 0
8 6, 3 6
40 ~
50 ~
60 ~
70 ~
≥ 80
合 计 1468 448 1 0 0, 0 0 3 0, 5 2
构成比有两个特点:
( 1) 各部分构成比之和为 100%或 1。
( 2) 某一部分所占的比重增大, 其它部分的比重
会相应减少 。
( 三 ) 相对比 ( relative ratio)
相对比简称比( ratio),是两个有关指标之比,
指标
指标
B
A
R ?
式中两指标可以是绝对数、相对数或平均数。
例 2 - 16 某地某年出生的婴儿中,男性婴 儿为
4 8 4 人,女性婴儿为 460 人,求出生婴儿的性比例。
0 5 2.1
460
484
??男女性别比 ( 或 1 0 5, 1 0 0 )
www.xybms.com
( 四 ) 速率 (rate)
速率 (rate)是反映单位时间内某事件出现
的可能性大小,多用于面向人群的出生、死亡和发病
资料的统计,
人口出生率 =(某年中活产总数 /该年平均人口数 )× 100%
二、应用相对数的注意事项
( 1) 正确区分率和构成比 。
( 2) 分母过小不宜计算相对数 。
如果例数较少会使相对数波动较大 。 如某种疗
法治疗 5例病人 5例全部治愈, 则计算治愈率为
5/5× 100% =100%, 若 4 例治愈, 则 治 愈 率 为
4/5× 100% =80%,由 100%至 80%波动幅度较大, 但
实际上只有 1例的变化 。
表 2 - 7 老年人白内障的年龄分布及患病率
年龄组

受检人数

白内障例数

患者年龄构成比( % )

患病率( % )

560
441
296
149
22
68
129
135
97
19
1 5, 1 8
2 8, 7 9
3 0, 1 3
2 1, 6 5
4, 2 4
1 2, 1 4
2 9, 2 5
4 5, 6 1
6 5, 1 0
8 6, 3 6
40 ~
50 ~
60 ~
70 ~
≥ 80
合 计 1468 448 1 0 0, 0 0 3 0, 5 2
( 3)用率或构成比进行组间比较时,要注意资料
之间是否有可比性。
( 4)分组资料计算合并率时,不能用各个率相加
所得,而应该用有关的合计数进行计算。
例,若 P1=x1/n1 P2=x2/n2 P3=x3/n3
P=( x1+ x2+ x3) / n1+ n2+ n3) (正确 )
P=( P1+ P2+ P3) /3 (错误 )
第四节 统计表与统计图
统计表 (statistical table)—— 数据 代
替文字描述, 便于统计结果的 精确,简洁的 表
达 和 对比分析
统计图 (statistical chart)—— 用 图形
代替数据,获得 直观, 形象 的效果
一,统计表
1,统计表的结构
2,统计表制作的基本要求
3,统计表的种类
4,不良统计表的修改举例
1,标题:
2,标目:
3,线条:
4,数字,无数字用, —,表示, 缺失数字用, ?,
表示, 数值为 0者记为, 0”,不要留空项 。
5,备注:
统计表的基本结构
表 2 - 10 1 9 9 8 年不同地区爱滋病流行情况
地 区 成人感染率( % )
北非及中东
西欧
北美洲
拉丁美洲
南亚及东南亚
0, 1 3
0, 2 5
0,56
0, 5 7
0, 6 9
横标目名称 纵标目名称 合 计
横 标 目 数 据 区
合 计
顶 线
底 线
表 名 标 题
统计表制作的基本要求
1,重点突出, 简单明了, 即一张表一般表达一
个中心内容, 不要包罗万象 。
2,主次分明, 条理清楚, 统计表就如完整的一
句话, 包括描述对象 /主语和内容 /谓语 。 通
常主语放在表的左边, 作为横标目 ; 谓语放
在右边, 作为纵标目 。 由左向右读, 构成完
整的一句话 。
3,数据准确, 可靠, 这是统计工作的根本 。
表 4-9 某省某工厂 1994,1998年四项检测指标异常检出率
检测
指标
1994年 1998年
受检人数 异常人数 检出率 (%) 受检人数 异常人数 检出率 (%)
血压
心率
TTT?
GPT?
519
519
519
519
55
44
36
20
10.16
0.48
6.94
3.85
582
582
582
582
38
39
23
16
6.52
6.70
3.95
2.75
?,TTT(麝香草酚浊度试验),?,GPT(谷丙转氨酶)。
(丁建生等, 中国卫生统计 1999; 16(3):166 )
统计表的种类
根据分组标目的复杂程度,统计表可大致分
为简单表和复合表。
简单表 (simple table):只按一个特征或标
志分组。如表 2-8 。
复合表 (combinative table),按两个或两
个以上特征或标志结合起来分组。如表 2-9。
表 2 - 8 某医院用两种疗法矫治假性近视眼的近期有效率
矫治方法 观察人数 近期有效人数 近期有效率( % )
新医疗法
眼保健操
32
32
16
9
50, 0
28, 1
简单表示例
分组标志为矫治方法
表 4-9 某省某工厂 1994,1998年四项检测指标异常检出率
检测
指标
1994年 1998年
受检人数 异常人数 检出率 (%) 受检人数 异常人数 检出率 (%)
血压
心率
TTT?
GPT?
519
519
519
519
55
44
36
20
10.16
0.48
6.94
3.85
582
582
582
582
38
39
23
16
6.52
6.70
3.95
2.75
?,TTT(麝香草酚浊度试验),?,GPT(谷丙转氨酶)。
(丁建生等, 中国卫生统计 1999; 16(3):166 )
复合表示例
分组标志:不同年份
不同检测指标
例 下表是复方猪胆胶囊治疗两型老年性慢性支气管
炎的疗效比较,请对该表的绘制进行评价,并指出所
存在的问题。
表 2 - 14 两个组的疗效观察
分型及疗效 单纯型慢性支气管炎 喘息型慢性支气管炎
指标 治愈 显效 好转 无效 治愈 显效 好转 无效
例数 60 98 51 12 23 83 65 11
合计 209 12 171 11


% 94,6 94,0
疗效
类型 例数
治愈 显效 好转 无效
有效率
单纯型 221 60 98 51 12 9 4, 6 %
喘息型 182 23 83 65 11 9 4, 0
表 4-15 复方猪胆胶囊治疗两型老年慢性支气管炎患者的疗效比较
实例分析
1,关于统计表的制作, 不正确的叙述是 ( ) 。
A,统计表不用竖线和斜线分隔表, 标目和数据
B,统计表的标题放在表的上方
C,统计表包含的内容越多越好
D,统计表中的数字按小数点位对齐
E,统计表一般用纵标目和横标目说明数字的意义和
单位
二、统计图
统计图 (statistical chart 或 statistical
graph)是用点、线、面等几何图形,直观形象地
表达、描述数据或结果。
1,统计图的结构
2,统计图的种类与绘制注意事项
统计图的结构
标题,用于简明扼要地说明资料的内容,一般位于图的
下方中央位置。
图域,即制图空间,是整个统计图的视觉中心。除圆图
外,一般都是存在于特定的坐标体系下。
标目,分为纵标目和横标目,表示坐标系下纵轴与横轴
的含义。
图例,用于识别比较的统计图中各种图形所代表的含义。
刻度,即纵轴和横轴上的坐标。刻度数值按从小到大的
顺序,纵轴由下向上,横轴由左向右排列。
常用的统计图
直条图
百分条图
圆图
线图与半对数线图
直方图
箱图
散点图
统计地图
条图( bar graph)
1,概念
条图用等宽长条的高度表示按性质分类资料各
类别的数值大小,用于表示他们之间的对比关系。
2,适用资料:相互独立的资料(资料有明确分
组,不连续)。
3,分类
(1)单式条图(图 2-8) 具有一个统计指标,一
个分组因素。
(2)复式条图(图 2-9) 具有一个统计指标,两
个分组因素。
条 图
表 2 - 10 1 9 9 8 年不同地区爱滋病流行情况
地 区 成人感染率( % )
北非及中东
西欧
北美洲
拉丁美洲
南亚及东南亚
0, 1 3
0, 2 5
0,56
0, 5 7
0, 6 9
条 图
图 2 - 8 1998 年世界不同地区爱滋病流行
情况
北非及中

西欧 北美洲 拉丁美

南亚及东南

成人感染率

%

0, 8
0, 7
0, 6
0, 5
0, 4
4
0, 3
0, 2
2
0, 1
1
0
表 2-9 某省某工厂 1994,1998年四项检测指标异常检出率
检测
指标
1994年 1998年
受检人数 异常人数 检出率 (%) 受检人数 异常人数 检出率 (%)
血压
心率
TTT?
GPT?
519
519
519
519
55
44
36
20
10.16
0.48
6.94
3.85
582
582
582
582
38
39
23
16
6.52
6.70
3.95
2.75
?,TTT(麝香草酚浊度试验),?,GPT(谷丙转氨酶)。
(丁建生等, 中国卫生统计 1999; 16(3):166 )
条 图
条 图
条 图
图 2 - 10 直条图 的纵轴尺度起点必须为零示意图
图 2-10 直条图的纵轴尺度起点必须为零示意
2
圆图 ( pie graph)
1.概念
以圆形的总面积代表 100%,把面积按
比例分成若干部分,以角度大小来表示各
部分所占的比重(图 2-11)。
2.适用资料:构成比资料
圆 图 表 2 - 1 1 我国 1998 年性病传播途径分布情况
传播途径 病例数 构成比( % )
非婚性接触
配偶传播
其他传播
413303
103064
57174
72.1
18.0
9.9
圆 图
百 分 条 图
1.概念
百分条图的意义及适用资料与圆形图相同,
不同的是表现形式不一样。百分条图亦称构
成条图,是以直条总长度作为 100%,直条中
各段表示事物各组成部分构成情况。
2.适用资料:构成比资料
百 分 条 图
表 2 - 1 2 上海市某区居民脑血管病死亡季节分布
季节
1974 ~ 1989
死亡数 构成比( % )
1990 ~ 1997
死亡数 构成比( % )
2362
1959
2399
3063
24,1 5
20,0 2
24,5 2
31,3 1
1729
1455
1229
1773
27,9 5
23,5 2
19,8 7
28,6 6




合计 9784 100, 00 6186 100, 00
百 分 条 图
2 0, 0 2
2 3, 5 2
2 4, 5 2
1 9, 8 7
3 1, 3 1
2 8, 6 6
2 4, 1 5
2 7, 9 5
0 % 2 0 % 4 0 % 6 0 % 8 0 % 1 0 0 %
1
2
′o ?? ?? ??
图 2-12 上海市某区居民脑血管病死亡季节分布
线 图
一、普通线图(线图)
1.概念
线图 (line graph)是用线段的升降来表示
统计指标的变化趋势。如某事物随时间的
发展变化,或某现象随另一现象变迁的情况。
2.适用资料
适用于随时间变化的连续性资料。
3,分析目的:
用线段的升降表示某事物在时间上的发展
变化趋势。
表 2 - 1 3 某市 19 49 ~ 1957 年 15 岁以下儿童结核病和白喉死亡率( 1 / 10 万)
年份 结核病死亡率 百喉死亡率
1949
1950
1951
1952
1953
1954
1955
1956
1957
150, 2
148, 0
141, 0
130, 0
1 10,4
98,2
72,6
68,0
54,8
20,1
16,6
14,0
1 1,8
10,7
6,5
3,9
2,4
1,3
图 2- 13 某市 19 49 ~ 19 5 7 年儿童结核病和白喉死亡率
年份
195719561955195419531952195119501949
死亡率

1/
10


160
140
120
100
80
60
40
20
0
结核 病
白喉
二、半对数线图
1,概念
是一种特殊的线图,其坐标纵轴是对数尺
度,特别适宜作不同指标变化速度的比较。
2.适用资料
适用于随时间变化的连续性资料,尤其比
较数值相差悬殊的多组资料时采用。
3,分析目的:
半对数线图中线段的升降是用来表示某事物
发展速度(或者说是相对比)。
图 2- 14 某市 1949 ~ 1957 年儿童结核病和白喉死亡率
年份
195719561955195419531952195119501949
死亡率之对数值
2,5
2,0
1,5
1,0
0,5
0
结核 病
白喉
普通线图(线图):纵横轴均为算术尺度,
半对数图:纵轴为对数尺度,横轴为算术
尺度。
图 2- 14 某市 1949 ~ 1957 年儿童结核病和白喉死亡率
年份
195719561955195419531952195119501949
死亡率之对数值
2,5
2,0
1,5
1,0
0,5
0
结核 病
白喉
图 2- 13 某市 19 49 ~ 19 5 7 年儿童结核病和白喉死亡率
年份
195719561955195419531952195119501949
死亡率

1/
10


160
140
120
100
80
60
40
20
0
结核 病
白喉
注意,在普通线图中,结核病死亡率线条的坡度比白
喉死亡率线条下降的陡峭,只能说明两种疾病的死亡
率逐年变化幅度不同,不能错认为结核病死亡率的下
降速度比白喉死亡率的下降速度快。在半对数线图中
就不会出现这种错觉。 在比较事物间的变化速度时,
应选择半对数线图。
为什么半对数线图中线段的
升降可以表示事物发展的速
度?
绝对差与相对比的比较
A → B 绝对差 相对比( A/ B ) 对数差( lgA - lgB )
1000 → 100 1000 - 1 0 0 = 9 0 0 1000/100=10 lg1000 - l g 1 0 0 = 3 - 2 = 1
100 → 10 100 - 1 0 = 9 0 1 0 0 / 1 0 = 1 0 lg100 - l g 1 0 = 2 - 1 = 1
10 → 1 10 - 1 = 9 1 0 / 1 = 1 0 lg10 - l g 1 = 1 - 0 = 1
图 2-19 绝对差示意图(算术格纸)


时间
1
10
100
1000
A B
图 2-20 相对比示意图(半对数格纸)


时间
表 2-13 某市 1949~ 1957年 15岁以下儿童结核病和白喉死亡率( 1/10万)
年份 结核病死亡率 百喉死亡率
1949
1950
1951
1952
1953
1954
1955
1956
1957
150.2
148.0
141.0
130.0
110.4
98.2
72.6
68.0
54.8
20.1
16.6
14.0
11.8
10.7
6.5
3.9
2.4
1.3
图 2- 13 某市 19 49 ~ 19 5 7 年儿童结核病和白喉死亡率
年份
195719561955195419531952195119501949
死亡率

1/
10


160
140
120
100
80
60
40
20
0
结核 病
白喉
图 2- 14 某市 1949 ~ 1957 年儿童结核病和白喉死亡率
年份
195719561955195419531952195119501949
死亡率之对数值
2,5
2,0
1,5
1,0
0,5
0
结核 病
白喉
直 方 图
1.概念
是以直方面积描述各组频数的多少,面积的总
和相当于各组频数之和。
2.适用资料:
直方图用于表达连续性资料的频数分布。
3.制图要求:
( 1)一般纵轴表示被观察现象的频数(或频
率),横轴表示连续变量,以各矩形(宽
为组距)的面积表示各组段频数。
( 2)直方图的各直条间不留空隙;各直条间
可用直线分隔,但也可不用直线分隔。
( 3)组距不等时,横轴仍表示连续变量,但
纵轴是每个横轴单位的频数。
箱 式 图
箱式图,使用 5个统计量反映原始数据的
分布特征,即数据分布中心位臵、分布、
偏度、变异范围和异常值。
箱式图的箱子两端分
别是 上四分位数 ( P75
)和 下四分位数 ( P25
),中间横线是 中位
数 ( P50)两端连线分
别是除异常值外的 最小
值 和 最大值 。另外标记
可能的异常值。显然箱
子越长,数据变异程度
越大。中间横线在箱子
中点表明分布对称,否
则不对称。
160N =
血清甘油三酯(mmol/L)
X
2.0
1.8
1.6
1.4
1.2
1.0
.8
.6
.4
例 某地调查不同类型化妆品厂车间内粉尘数,结果
绘制成图 2-20。图中显示粉尘数的分布呈偏态分布,
净化厂粉尘数较少,非净化厂粉尘数较多。
工厂类型
粉类 非净化 净化
尘粒数
(
亿
)
2, 0
1, 8
1, 6
1, 4
1, 2
1, 0
.8
.6
.4
.2
0, 0
散 点 图
1.概念
散点图以直角坐标系中各点的密集程度和
趋势来表示两现象间的关系。常在对资料
进行相关分析之前使用。
2.适用资料:双变量资料。
图 2-15 12名女大学生身高与体重散点图
统计地图
统计地图 (statistical map):是用不同
的颜色和花纹表示统计量的值在地理分布
上的变化,适宜描述研究指标的地理分布。
例 调查广东省四会市鼻咽癌高发区 1990-1999年
十年间鼻咽癌的发病数,按镇区计算 标化发病比
(SMR),标志在四会市行政地图上。
图2-19 1990-1999年某市鼻咽癌 标化发病比 的地区分布
1,欲比较两地 20年来 冠心病和恶性肿瘤死亡率的上升
速度, 最好选用 ( ) 。
A,普通线图 B,半对数线图
C,条图 D,直方图
E,圆图
2,调查某地 6至 16岁学生近视情况, 需 描述近视学生的
年龄分布 可用 ( ) 。
A,普通线图 B,半对数线图
C,条图 D,直方图
E,圆图
实例分析
D
3,比较 某地在两个年份几种传染病的发病率 可用 ( ) 。
A,构成比条图 B,复式条图
C,线图 D,直方图
E,圆图
4,图示 7岁 男孩体重与胸围的关系, 宜绘制 ( ) 。
A,条图 B,百分条图
C,散点图 D,线图
E,直方图
B
5,表示 某地区某年各种死因的构成比,
可绘制 ( ) 。
A,条图 B,圆图
C,直方图 D,统计地图
E,线图