1
第二章
计量资料的统计描述
王晓莉
网页,www.qingis.com/wang.htm
lilymch@hotmail.com
xlwang@bjmu.edu.cn
2
主要内容
第一节 计量资料的频数分布
第二节 集中趋势
第三节 离散趋势
第四节 正态分布
第五节 医学正常值范围的估计
3
第一节 频数分布
? 什么是频数
? 频数分布的特点
? 频数分布的类型
? 频数分布的用途
5
SPSS建立数据库
? 进入 SPSS操作窗口
? 进入数据编辑窗口 (data editor)
? Variable View 变量名 类型
整数位 小数位
? 输入数据,Data View
6
? 检查输入的数据(打开数据库)
? 找出最大值、最小值(数据排序)
data editor- data- sort cases
? 身高主要集中在什么阶段?
Analyze----Descriptive Statistics----Frequencies
身高- display frequency table
(这个程序能否看得出来大多数人身高在何处?
应该怎么办? )
身高
1 1, 0 1, 0 1, 0
1 1, 0 1, 0 2, 0
1 1, 0 1, 0 3, 0
1 1, 0 1, 0 4, 0
1 1, 0 1, 0 5, 0
1 1, 0 1, 0 6, 0
1 1, 0 1, 0 7, 0
2 2, 0 2, 0 9, 0
1 1, 0 1, 0 1 0, 0
1 1, 0 1, 0 1 1, 0
1 1, 0 1, 0 1 2, 0
1 1, 0 1, 0 1 3, 0
1 1, 0 1, 0 1 4, 0
1 1, 0 1, 0 1 5, 0
2 2, 0 2, 0 1 7, 0
1 1, 0 1, 0 1 8, 0
2 2, 0 2, 0 2 0, 0
1 1, 0 1, 0 2 1, 0
1 1, 0 1, 0 2 2, 0
1 1, 0 1, 0 2 3, 0
2 2, 0 2, 0 2 5, 0
1 1, 0 1, 0 2 6, 0
2 2, 0 2, 0 2 8, 0
1 1, 0 1, 0 2 9, 0
1 1, 0 1, 0 3 0, 0
2 2, 0 2, 0 3 2, 0
1 1, 0 1, 0 3 3, 0
1 1, 0 1, 0 3 4, 0
1 1, 0 1, 0 3 5, 0
2 2, 0 2, 0 3 7, 0
1 1, 0 1, 0 3 8, 0
3 3, 0 3, 0 4 1, 0
1 1, 0 1, 0 4 2, 0
3 3, 0 3, 0 4 5, 0
2 2, 0 2, 0 4 7, 0
1 1, 0 1, 0 4 8, 0
1 1, 0 1, 0 4 9, 0
1 1, 0 1, 0 5 0, 0
1 1, 0 1, 0 5 1, 0
1 1, 0 1, 0 5 2, 0
2 2, 0 2, 0 5 4, 0
2 2, 0 2, 0 5 6, 0
1 1, 0 1, 0 5 7, 0
2 2, 0 2, 0 5 9, 0
1 1, 0 1, 0 6 0, 0
2 2, 0 2, 0 6 2, 0
3 3, 0 3, 0 6 5, 0
2 2, 0 2, 0 6 7, 0
1 1, 0 1, 0 6 8, 0
2 2, 0 2, 0 7 0, 0
1 1, 0 1, 0 7 1, 0
1 1, 0 1, 0 7 2, 0
2 2, 0 2, 0 7 4, 0
1 1, 0 1, 0 7 5, 0
1 1, 0 1, 0 7 6, 0
1 1, 0 1, 0 7 7, 0
1 1, 0 1, 0 7 8, 0
1 1, 0 1, 0 7 9, 0
1 1, 0 1, 0 8 0, 0
1 1, 0 1, 0 8 1, 0
1 1, 0 1, 0 8 2, 0
1 1, 0 1, 0 8 3, 0
3 3, 0 3, 0 8 6, 0
1 1, 0 1, 0 8 7, 0
1 1, 0 1, 0 8 8, 0
1 1, 0 1, 0 8 9, 0
1 1, 0 1, 0 9 0, 0
1 1, 0 1, 0 9 1, 0
1 1, 0 1, 0 9 2, 0
1 1, 0 1, 0 9 3, 0
1 1, 0 1, 0 9 4, 0
1 1, 0 1, 0 9 5, 0
1 1, 0 1, 0 9 6, 0
1 1, 0 1, 0 9 7, 0
1 1, 0 1, 0 9 8, 0
1 1, 0 1, 0 9 9, 0
1 1, 0 1, 0 1 0 0, 0
1 0 0 1 0 0, 0 1 0 0, 0
1 5 4, 7 0
1 5 5, 6 0
1 5 6, 3 0
1 5 6, 8 0
1 5 7, 1 0
1 5 7, 2 0
1 5 8, 0 0
1 5 8, 2 0
1 5 8, 3 0
1 5 8, 4 0
1 5 8, 5 0
1 5 9, 0 0
1 5 9, 4 0
1 5 9, 5 0
1 5 9, 9 0
1 6 0, 4 0
1 6 0, 6 0
1 6 0, 7 0
1 6 0, 9 0
1 6 1, 0 0
1 6 1, 2 0
1 6 1, 3 0
1 6 1, 5 0
1 6 1, 8 0
1 6 1, 9 0
1 6 2, 0 0
1 6 2, 2 0
1 6 2, 3 0
1 6 2, 5 0
1 6 2, 6 0
1 6 2, 7 0
1 6 2, 8 0
1 6 2, 9 0
1 6 3, 0 0
1 6 3, 1 0
1 6 3, 4 0
1 6 3, 5 0
1 6 3, 6 0
1 6 3, 7 0
1 6 3, 8 0
1 6 4, 0 0
1 6 4, 2 0
1 6 4, 3 0
1 6 4, 5 0
1 6 4, 6 0
1 6 5, 0 0
1 6 5, 1 0
1 6 5, 2 0
1 6 5, 3 0
1 6 5, 8 0
1 6 5, 9 0
1 6 6, 0 0
1 6 6, 1 0
1 6 6, 2 0
1 6 6, 3 0
1 6 6, 5 0
1 6 6, 6 0
1 6 6, 8 0
1 6 7, 1 0
1 6 7, 2 0
1 6 7, 3 0
1 6 7, 4 0
1 6 7, 5 0
1 6 8, 0 0
1 6 8, 2 0
1 6 8, 5 0
1 6 8, 9 0
1 6 9, 0 0
1 6 9, 1 0
1 6 9, 3 0
1 6 9, 6 0
1 6 9, 7 0
1 7 0, 2 0
1 7 0, 5 0
1 7 0, 6 0
1 7 1, 2 0
1 7 3, 6 0
T o t a l
V a l i d
F r e q u e n c y P e r c e n t V a l i d P e r c e n t
C u m u l a t i v e
P e r c e n t
8
? 变量变换:将身高转化成一个新变量(组段)
? Transform-recode-into different variables(身
高-组段 )--change- old and new-old value
(range)-new value (value)-old- new—add—
continue
(可以试用不同的分组方法,例如, 5”“2”)
? 产生新变量(组段)
9
? Analyze----Descriptive Statistics----
Frequencies-组段- display frequency
table
组段
2 2, 0 2, 0 2, 0
4 4, 0 4, 0 6, 0
11 1 1, 0 1 1, 0 1 7, 0
13 1 3, 0 1 3, 0 3 0, 0
22 2 2, 0 2 2, 0 5 2, 0
19 1 9, 0 1 9, 0 7 1, 0
15 1 5, 0 1 5, 0 8 6, 0
9 9, 0 9, 0 9 5, 0
4 4, 0 4, 0 9 9, 0
1 1, 0 1, 0 1 0 0, 0
1 0 0 1 0 0, 0 1 0 0, 0
1, 0 0
2, 0 0
3, 0 0
4, 0 0
5, 0 0
6, 0 0
7, 0 0
8, 0 0
9, 0 0
1 0, 0 0
To t a l
V a l i d
Fr e q u e n c y P e r c e n t V a l i d P e r c e n t
C u m u l a t i v e
P e r c e n t
频数表
12
频数:当汇总 大量 的原始数据时,把数
据按类型分组,其中每个组的数据个数,
称为该组的 频数 。
频数表(频数分布):表示各组及它们
对应的组频数的表格称为频数表或频数
分布。
(见前两张幻灯)
13
?频数分布的两个特征,
集中趋势与离散趋势 (共性与个性)
?频数分布的类型,
对称分布与偏态分布(集中位置偏向小的一侧叫
正偏态,反之叫负偏态)
?频数表的主要用途,
1,揭示分布类型
2,发现特大值和特小值
3,计算集中趋势指标与离散趋势指标
总结前面
14
杨振宁教授:,怎样评价中国的高等教育,
中国注重训导,美国注重启发(教育哲学不同)。
对于九十分以下的学生,中国的教育哲学比较好,能够训导其少
走弯路,增加自信心和安全感。而这些毕业生正是今天中国社会
所急需的人才(通用型人才)。
至于九十分以上的学生,美国的教育哲学一般比较好,能够让他
们有更多空间发展他们的才能(尖端人才)。
中美学生成绩分布特别很不同,中国的只有一个
‘ 峰 ’ ;而美国学生呈两个, 峰,,好坏突出。
15
? 2006.3.15日,英国诺丁汉大学校长、中
国科学院院士杨福家教授做客同济大学
进行演讲时,针对 杨振宁教授, 中国暂
不需诺贝尔奖, 观点 提出了不同意见。
?, 我们不仅仅需要比尔 ·盖茨和任天堂,
也需要一部分人从事和经济没有关系的
基础研究,他们是将来中国经济发展的
动力和源泉所在。,
16
第二节 集中趋势
集中位置 的描述,即大多数数值落在什么
位置上。 (针对一个变量的若干个数值)
描述集中趋势的几种指标 (用不同的方
法将不同类型数值的集中位置表示出来)
1.算术均数(均数)
2.几何均数
3.中位数
17
1.算术均数(均数 )
? 意义:一组 性质相同 的观察值在数量上的平均
水平。
? 表示 ?(总体) X( 样本)( spss中用
,mean”)
? 计算:直接法、间接法,计算机计算( spss)
? 特征,∑( X- X) =0 估计误差之和为 0。
? 应用:正态分布或近似正态分布
? 注意:合理分组,才能求均数,否则没有意义。
18
用 SPSS计算算术均数
File---Open---Data---身高 ---Analyze----
Descriptive Statistics----Frequencies----
Statistics----Mean---Continue----OK
19
2.几何均数
? 意义,N个数值的乘积开 N次方即为这 N 个数
的几何均数。
? 表示,G
? 计算,
? 应用,原始数据分布不对称,经对数转换后
呈对称分布的资料。数值范围跨越多个数量级。
例如抗体滴度。
20
? 首先看这组数据的频数分布,大概集中
在什么位置。
? 用, mean”求,看结果如何。
21
SPSS计算几何均数
File---Open---Data---抗体滴度 ---Analyze-
---Reports----Case Summaries----抗体滴
度- Statistics----Geometric Mean----
Continue---OK
Case Summaries a
1.00
1.00
1.00
1.00
2.00
2.00
2.00
2.00
2.00
4.00
4.00
4.00
4.00
4.00
4.00
4.00
8.00
8.00
8.00
16.00
16.00
32.00
32.00
23
4.00
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
N
Grouped Median
Total
抗体滴度
Limited to first 100 cases,a,
23
3.中位数、百份位数
? 意义,将一组观察值从小到大排序后,居于中间
位置的那个值或两个中间值的平均值。 (身高排队)
data editor- data- sort cases
? 表示,M, PX
? 计算,
? 百分位数,将 N个观察值从小到大依次排列,再
分成 100等份,对应于 X%位的数值即为第 X百分位
数。中位数是百分位的特殊形式。
? 应用:偏态资料,开口资料
24
? 偏态资料用算术均数处理会产生什么样
的结果?
? 大家试举一个偏态资料的例子。
(医疗卫生服务的公平性)
25
SPSS计算中位数、百分位数
File---Open---Data---收入(抗体滴度) ---
-Analyze----Descriptive Statistics----
Frequencies----Statistics----Median
( mean) ---Continue----OK
26
三个指标的区别与联系
1.算术均数
2.几何均数
3.中位数
27
第三节 离散趋势
? 描述一组数据参差不齐的程度
28
? 全距
? 四分位数间距
? 方差
? 标准差
? 变异系数
常用指标,
29
标准差
? 相关概念:离均差、离均差之和、离均差平方和、方
差( ?2 S2 )
? 标准差的符号,S ( Std.deviation) ?
? 意义:全面反映了一组观察值的变异程度,(越大说明
围绕均数越离散,反之说明较集中在均数周围,均数的代表性越
好 )
? 计算, spss程序计算
? 应用:描述变异程度、计算标准误、计算变异系数、
描述正态分布、估计正常值范围
30
SPSS计算标准差
File---Open---Data---身高 ---Analyze----
Descriptive Statistics----Frequencies----
Statistics----Dispersion---Std,deviati---
Continue----OK
31
变异系数
? 意义,标准差与均数之比用百分数表示。
? 符号, CV
? 计算, CV=( S/X) ?100%
? 无单位
? 应用,单位不同的多组数据比较
均数相差悬殊的多组资料
32
第四节 正态分布 (Normal
distribution)
主要内容,
1、图形形状
2、图形特征
3、正态曲线下面积分布规律
33
德国大数学家 高斯 (C.F.Gauss,1777~ 1855)。
调查, 观察或测量中的误差, 不仅是不可避免的,
而且一般是无法把握的 。 高斯以他丰富的天文观察
和在 1821~ 1825年间土地测量的经验, 发现观察值
x与真正值 μ 的误差变异, 大量服从现代人们最熟
悉的正态分布 。 称高斯分布曲线, 也就是正态分布
曲线 。
正态曲线 (Normal cure):是一条高峰位于中央,两
侧逐渐下降并完全对称,曲线两端永远不与横轴相交
的 钟形曲线 。
36
正态分布的特征
? 均数处最高(说明什么?);
? 均数为中心左右对称;
? 2个参数 N( u, ?) 决定了图形的位置和形状;
? 标准正态分布,N( 0, 1);
? 标准正态变换 ( 变换公式 );
? 曲线下的面积有一定规律(见下面)。 SXu X??
38
S
X
u
X?
?
标准正态变换后
40
正态曲线下的面积分布规律
?附表 1(不同位置上数的意义,图示)
?横轴上、曲线下的面积为 1;
?曲线下,横轴上对称于 0的面积相等,
X1- X2曲线下的面积为多少?
??(x) 与所对应的面积 P成反比。
42
SPSS绘制正态曲线
File---Open---Data---身高,两个路径
---Analyze----Descriptive Statistics----
Frequencies---- Chart Type----With
normal Cure---- Continue----OK
----Graphs----Histograms---Display
Normal Curve---Continue----OK
身高
1 7 4, 0
1 7 3, 0
1 7 2, 0
1 7 1, 0
1 7 0, 0
1 6 9, 0
1 6 8, 0
1 6 7, 0
1 6 6, 0
1 6 5, 0
1 6 4, 0
1 6 3, 0
1 6 2, 0
1 6 1, 0
1 6 0, 0
1 5 9, 0
1 5 8, 0
1 5 7, 0
1 5 6, 0
1 5 5, 0
身高
F
r
e
q
u
e
n
cy
16
14
12
10
8
6
4
2
0
S t d, D e v = 3, 8 0
M e a n = 1 6 3, 7
N = 1 0 0, 0 0
44
第五节 医学正常值范围的估计
?概念:又称参考值范围,是指特定健康人群的解剖、
生理、生化等各种数据的波动范围。习惯上是确定
包括 95%的人的界值。
?单双侧,根据指标的实际用途,有的指标有上下界
值(双侧)。某些指标只需确定上限(单);某些
指标只需确定下限(单)。
?估计的方法,
1、正态分布法
2、百分位数法
45
应用条件,正态分布或近似正态分布资料
计算(双侧),
95% 正常值 (医学参考值)范围公式,
( x?1.96 · S,x?1.96 · S )
即( x± 1.96 · S )
1、正态分布法
46
2、百分位数法
? 应用条件,
任何分布资料
? 计算公式,
双侧界值,P 2.5 ~ P 97.5
单侧上界,P 95
单侧下界,P 5
47
SPSS求正常值范围 (百份位数法)
File---Open---Data---收入 ----Analyze----
Descriptive Statistics----Frequencies----
Statistics----Percentile Values---
Continue----OK
48
本章在临床资料处理中的用途
? 资料整理阶段,判断资料适合何种
方法
? 分析的初步阶段,对变量的特点进
行描述
? 为后面的假设检验做准备