1
第三章 平均数、标准差与变异系数
第二章的次数分布表和次数分布图,可以形象、
直观地表示出资料的两个特征 —— 集中性和离散性 。为了更简单、精确地描述资料的特征,本章介绍三个统计量:平均数、标准差和变异系数 。
平均数反应资料的集中性,标准差和变异系数反应资料的离散性。
第一节 平均数
第二节 标准差
第三节 变异系数
2
第一节 平均数 (Mean)
平均数的意义,平均数用来描述资料的集中性,即指出资料中数据集中较多的中心位置。
平均数的作用,?平均数是 资料的代表数 ;
常用于 同类性质资料间 的相互比较 。
平均数的种类,其中应用最为普遍的是 算术平均数,此外还有 几何平均数、中数、众数和调和平均数 。
3
一、算术平均数
(Arithmetic mean)
(一)算术平均数的定义
资料中各观察值的总和除以观察值的个数所得的商,称为 算术平均数 。在统计学中,简称为 平均数或均数。 用符号 表示。
(二)计算方法
1、直接法 对样本含量较小,未分组的资料适用 。
x
4
其中,?( Sigma)为总和符号,表示从第一个观察值 x1 累加到第 n个观察值 xn,若在意义上已明确时,简记为 。
n
x
n
xxx
x
n
i
i
n
121
x
n
i
ix
1
5
关于总和符号的几个性质
常数的总和等于该常数的 n倍,即
代数和的总和等于总和的代数和,即
总和符号内的常数因子可以提取到总和符号之外,即
nCC
n
i
1
其中 C为常数;注意:在后面一些章节经常会遇到 C代表一个为常量的式子
iiiiii zyxzyx )(
n
j
k
i
ij
k
i
n
j
ij xx
1 11 1
ii xaax
( a为常数)
6
2、加权法
适用于已分组的资料
k
kk
fff
xfxfxf
x
21
2211
f
fx
f
xf
k
i
i
k
i
ii
1
1
各组的次数 fi 是权衡各组中值 xi 在资料中所占比重大小的数量,因此 f被称为是 x的,权,
( right),加权法 也由此而得名。
xi — 各组组中值;
fi — 各组次数;
k — 分组数。
7
(三 )平均数的基本性质
1、样本各个观察值与平均数之差的和为零,
即 离均差之和为零 ;
2、样本各观察值与平均数之差的平方和为最小,即 离均差的平方和最小 。
0,0)(
1
)(简记为 xxxx
n
i
i
22
1
2
1
2
)(
)(
)()(
axxx
xa
axxx
n
i
i
n
i
i
)(简记为:
常数
8
3、统计学已证明,样本平均数 是总体平均
数 的无偏估计值。
对总体而言,用 表示平均数。
对于 有限总体
无偏估计,当一个统计量的 数学期望值 等于等于相应总体参数时,称该统计量为其总体参数的无偏估计。
N
x
N
i
i?
1?
N—— 有限总体所包含的个体数目。
x
9
二、几何平均数
(Geometric mean)
(一)定义 指 n个观察值乘积的 n次方根。即
(二)适用条件
主要应用于数据 呈倍数关系 或 不对称分布 的资料,算术平均数对这类资料的代表性差 。如抗体效价( 1,10,1,100,1,1000,1,10000)、
增长率或生长率、动态发展速度等。
(三)计算
nnn n xxxxxxG 1)....(...,2121
10
1、应用公式计算(实际应用时常取对数)
n
nxxxG?21?
nxxx
n
G lglglg1lg 21
n
i
ixn
1
lg1
n
i
ix
n
G
1
1 lg1lg
11
例如,海虾养殖试验,各旬的生长速度 3.0,1.5
1.3,1.2,1.2,1.1,1.1,求海虾的旬平均生长速度。
,即海虾旬平均生长速度为 1.38。
2、当资料编成次数分布表时,
)
lg
(lg 1
f
xf
G
i
14.01.1lg22.1lg25.1lg3lg71lgG
38.114.0lg 1G
— 各组组中值;
— 各组次数;
i x
if
12
三、中 数 ( median)
(一)定义 将资料中所有观察值从小到大依次排列,处于中间位置的数。以 表示。
(二)适用条件 资料呈 偏态分布 或 次数分布类型不明,以及 一端或两端无确定数值,这种资料用中位数作为代表值比用算术平均数为好。
(三)计算方法
1、未分组资料,先将各观察值由小到大排列。
当 n为奇数时,第 位置的观察值即为中数,
即
dM
2/)1( nd xM
2/)1(?n
13
当 n为偶数时,和 位置的两个观察值
之和的二分之一即为中数,即:
2,若资料已分组,并编制成了次数分布表,
可利用次数分布表计算中数。
其中,L—— 中数所在组的下限; i— 组距;
f—— 中数所在组的次数; n— 总次数;
c—— 小于中数所在组的累积次数 。
2/)1(?n2/n
2
)12/(2/ nn
d
xx
M
)
2
( c
n
f
i
LM d
14
[例 ]某地区有 164人因沙门氏菌食物中毒,其潜
伏期资料经整理如下表,试计算中位数。
潜伏期(小时) 病例数 f 累计例数
0—— 25 25
12—— 58 83
24—— 40 123
36—— 23 146
48—— 12 158
60—— 5 163
72—— 1 164
)(8.23)25
2
1 6 4(
58
1212)
2
( 小时 cn
f
iLM
d
25,58,12,164,12 CfLni此例
15
四、众数和调和平均数
(一)众数 ( Mode)
资料中出现次数最多的那个数或次数最多一组的组中值,记为 Mo。
(二)调和平均数 (Harmonic Mean)
指资料中各观察值倒数的平均数的倒数,用 H
表示。主要用于求一个过程中各部分速率的平均速率。
in x
n
xxxn
H
1
)
111
(
1
1
21
16
对同一资料,几种主要的平均数之间的关系算术平均数 >几何平均数 >调和平均数
请注意:重点
算术平均数。
17
第二节 标准差 (Standard deviation)
平均数是资料的代表数,其代表性强弱受资料中各观察值变异程度的影响 。仅利用平均数对一个资料的统计特征作全面描述是不够的,还应引入一个能 说明资料各观察值变异程度大小的统计量。
用来表示资料变异程度的指标较多,常用的有极差、标准差、变异系数、方差等,其中以 方差与标准差应用最为广泛 。
一、标准差的引入
全距(极差),只利用了资料中最大值和最小值,
不能准确表达资料中各个观察值的变异程度 。
18
离均差 可表达观察值偏离平均数的程度和性质,但由于离均差之和为零,因此它不能表示整个资料中所有观察值的总偏离程度。
若用,使用起来又不方便,在统计学中未被采用。
为消除离均差的负号,先将各离均差平方 ;
再求离均差的平方之和(简称 平方和,记为 SS)
,为消除样本含量的影响以离均差的平方和除以自由度 n-1。
则统计量 称为 均方 (缩写为 MS),又称为 样本方差,记为 S2,即,
xx
)( xx?
2)( xx?
2)( xx
)1/()( 2 nxx
19
)( xx?
0)( xx
xx
它不能表示整个资料中所有观察值的总偏离程度?
使用不方便,在统计学中未被采用
)( xx? 2)( xx 2)( xx )1/()( 2 nxx
)1/()( 2 nxxs
消除离均差的负号离均差的平方之和(简称 平方和,记为 SS)
称为 均方 (缩写为
MS),又称为 样本方差,记为 S2
标准差
20
相应总体参数叫 总体方差,记为 σ2
对于 有限总体,
由于样本方差带有原度量单位的平方单位,为将单位还原,即求样本方差的平方根。在统计学上,样本方差 S2的平方根叫做 标准差,记为 S。
)1/()( 22 nxxS
Nx /)(
22
)1/()( 2 nxxS
21
相应总体参数叫总体标准差( σ),对于有限总体,
二、标准差的计算
(一)直接法
(二)加权法
1
/)( 22
n
nxx
s
1
/)(
1
)(
222
i
iiiii
i
ii
f
fxfxf
f
xxf
s
Nx /)( 2
22
第三节 变异系数
( Coefficient of variation)
一、变异系数的引入
变异系数是标准差相对于平均数的百分数,记为 CV。
变异系数同标准差一样是衡量资料变异程度的统计量。变异系数消除了不同单位和平均数的影响,可以用来比较不同资料的相对变异程度 。
二、计算公式
%100 xscv
23
三、特点和作用
(一)变异系数是一个 无单位的相对数,用%
表示;
(二)变异系数 同时受到平均数和标准差的影响,因此,在利用变异系数来表示资料的变异程度时,最好将平均数和标准差也列出。
(三 )变异系数 不受单位不同或平均数不同的影响,对于单位不同和平均数不同的资料,都可以用变异系数来比较其变异程度 。
24
你们现在已基本入门。下一章的难度要大些,
第三章 平均数、标准差与变异系数
第二章的次数分布表和次数分布图,可以形象、
直观地表示出资料的两个特征 —— 集中性和离散性 。为了更简单、精确地描述资料的特征,本章介绍三个统计量:平均数、标准差和变异系数 。
平均数反应资料的集中性,标准差和变异系数反应资料的离散性。
第一节 平均数
第二节 标准差
第三节 变异系数
2
第一节 平均数 (Mean)
平均数的意义,平均数用来描述资料的集中性,即指出资料中数据集中较多的中心位置。
平均数的作用,?平均数是 资料的代表数 ;
常用于 同类性质资料间 的相互比较 。
平均数的种类,其中应用最为普遍的是 算术平均数,此外还有 几何平均数、中数、众数和调和平均数 。
3
一、算术平均数
(Arithmetic mean)
(一)算术平均数的定义
资料中各观察值的总和除以观察值的个数所得的商,称为 算术平均数 。在统计学中,简称为 平均数或均数。 用符号 表示。
(二)计算方法
1、直接法 对样本含量较小,未分组的资料适用 。
x
4
其中,?( Sigma)为总和符号,表示从第一个观察值 x1 累加到第 n个观察值 xn,若在意义上已明确时,简记为 。
n
x
n
xxx
x
n
i
i
n
121
x
n
i
ix
1
5
关于总和符号的几个性质
常数的总和等于该常数的 n倍,即
代数和的总和等于总和的代数和,即
总和符号内的常数因子可以提取到总和符号之外,即
nCC
n
i
1
其中 C为常数;注意:在后面一些章节经常会遇到 C代表一个为常量的式子
iiiiii zyxzyx )(
n
j
k
i
ij
k
i
n
j
ij xx
1 11 1
ii xaax
( a为常数)
6
2、加权法
适用于已分组的资料
k
kk
fff
xfxfxf
x
21
2211
f
fx
f
xf
k
i
i
k
i
ii
1
1
各组的次数 fi 是权衡各组中值 xi 在资料中所占比重大小的数量,因此 f被称为是 x的,权,
( right),加权法 也由此而得名。
xi — 各组组中值;
fi — 各组次数;
k — 分组数。
7
(三 )平均数的基本性质
1、样本各个观察值与平均数之差的和为零,
即 离均差之和为零 ;
2、样本各观察值与平均数之差的平方和为最小,即 离均差的平方和最小 。
0,0)(
1
)(简记为 xxxx
n
i
i
22
1
2
1
2
)(
)(
)()(
axxx
xa
axxx
n
i
i
n
i
i
)(简记为:
常数
8
3、统计学已证明,样本平均数 是总体平均
数 的无偏估计值。
对总体而言,用 表示平均数。
对于 有限总体
无偏估计,当一个统计量的 数学期望值 等于等于相应总体参数时,称该统计量为其总体参数的无偏估计。
N
x
N
i
i?
1?
N—— 有限总体所包含的个体数目。
x
9
二、几何平均数
(Geometric mean)
(一)定义 指 n个观察值乘积的 n次方根。即
(二)适用条件
主要应用于数据 呈倍数关系 或 不对称分布 的资料,算术平均数对这类资料的代表性差 。如抗体效价( 1,10,1,100,1,1000,1,10000)、
增长率或生长率、动态发展速度等。
(三)计算
nnn n xxxxxxG 1)....(...,2121
10
1、应用公式计算(实际应用时常取对数)
n
nxxxG?21?
nxxx
n
G lglglg1lg 21
n
i
ixn
1
lg1
n
i
ix
n
G
1
1 lg1lg
11
例如,海虾养殖试验,各旬的生长速度 3.0,1.5
1.3,1.2,1.2,1.1,1.1,求海虾的旬平均生长速度。
,即海虾旬平均生长速度为 1.38。
2、当资料编成次数分布表时,
)
lg
(lg 1
f
xf
G
i
14.01.1lg22.1lg25.1lg3lg71lgG
38.114.0lg 1G
— 各组组中值;
— 各组次数;
i x
if
12
三、中 数 ( median)
(一)定义 将资料中所有观察值从小到大依次排列,处于中间位置的数。以 表示。
(二)适用条件 资料呈 偏态分布 或 次数分布类型不明,以及 一端或两端无确定数值,这种资料用中位数作为代表值比用算术平均数为好。
(三)计算方法
1、未分组资料,先将各观察值由小到大排列。
当 n为奇数时,第 位置的观察值即为中数,
即
dM
2/)1( nd xM
2/)1(?n
13
当 n为偶数时,和 位置的两个观察值
之和的二分之一即为中数,即:
2,若资料已分组,并编制成了次数分布表,
可利用次数分布表计算中数。
其中,L—— 中数所在组的下限; i— 组距;
f—— 中数所在组的次数; n— 总次数;
c—— 小于中数所在组的累积次数 。
2/)1(?n2/n
2
)12/(2/ nn
d
xx
M
)
2
( c
n
f
i
LM d
14
[例 ]某地区有 164人因沙门氏菌食物中毒,其潜
伏期资料经整理如下表,试计算中位数。
潜伏期(小时) 病例数 f 累计例数
0—— 25 25
12—— 58 83
24—— 40 123
36—— 23 146
48—— 12 158
60—— 5 163
72—— 1 164
)(8.23)25
2
1 6 4(
58
1212)
2
( 小时 cn
f
iLM
d
25,58,12,164,12 CfLni此例
15
四、众数和调和平均数
(一)众数 ( Mode)
资料中出现次数最多的那个数或次数最多一组的组中值,记为 Mo。
(二)调和平均数 (Harmonic Mean)
指资料中各观察值倒数的平均数的倒数,用 H
表示。主要用于求一个过程中各部分速率的平均速率。
in x
n
xxxn
H
1
)
111
(
1
1
21
16
对同一资料,几种主要的平均数之间的关系算术平均数 >几何平均数 >调和平均数
请注意:重点
算术平均数。
17
第二节 标准差 (Standard deviation)
平均数是资料的代表数,其代表性强弱受资料中各观察值变异程度的影响 。仅利用平均数对一个资料的统计特征作全面描述是不够的,还应引入一个能 说明资料各观察值变异程度大小的统计量。
用来表示资料变异程度的指标较多,常用的有极差、标准差、变异系数、方差等,其中以 方差与标准差应用最为广泛 。
一、标准差的引入
全距(极差),只利用了资料中最大值和最小值,
不能准确表达资料中各个观察值的变异程度 。
18
离均差 可表达观察值偏离平均数的程度和性质,但由于离均差之和为零,因此它不能表示整个资料中所有观察值的总偏离程度。
若用,使用起来又不方便,在统计学中未被采用。
为消除离均差的负号,先将各离均差平方 ;
再求离均差的平方之和(简称 平方和,记为 SS)
,为消除样本含量的影响以离均差的平方和除以自由度 n-1。
则统计量 称为 均方 (缩写为 MS),又称为 样本方差,记为 S2,即,
xx
)( xx?
2)( xx?
2)( xx
)1/()( 2 nxx
19
)( xx?
0)( xx
xx
它不能表示整个资料中所有观察值的总偏离程度?
使用不方便,在统计学中未被采用
)( xx? 2)( xx 2)( xx )1/()( 2 nxx
)1/()( 2 nxxs
消除离均差的负号离均差的平方之和(简称 平方和,记为 SS)
称为 均方 (缩写为
MS),又称为 样本方差,记为 S2
标准差
20
相应总体参数叫 总体方差,记为 σ2
对于 有限总体,
由于样本方差带有原度量单位的平方单位,为将单位还原,即求样本方差的平方根。在统计学上,样本方差 S2的平方根叫做 标准差,记为 S。
)1/()( 22 nxxS
Nx /)(
22
)1/()( 2 nxxS
21
相应总体参数叫总体标准差( σ),对于有限总体,
二、标准差的计算
(一)直接法
(二)加权法
1
/)( 22
n
nxx
s
1
/)(
1
)(
222
i
iiiii
i
ii
f
fxfxf
f
xxf
s
Nx /)( 2
22
第三节 变异系数
( Coefficient of variation)
一、变异系数的引入
变异系数是标准差相对于平均数的百分数,记为 CV。
变异系数同标准差一样是衡量资料变异程度的统计量。变异系数消除了不同单位和平均数的影响,可以用来比较不同资料的相对变异程度 。
二、计算公式
%100 xscv
23
三、特点和作用
(一)变异系数是一个 无单位的相对数,用%
表示;
(二)变异系数 同时受到平均数和标准差的影响,因此,在利用变异系数来表示资料的变异程度时,最好将平均数和标准差也列出。
(三 )变异系数 不受单位不同或平均数不同的影响,对于单位不同和平均数不同的资料,都可以用变异系数来比较其变异程度 。
24
你们现在已基本入门。下一章的难度要大些,