第二节 分布离散程度的测度离散趋势
1,数据分布的另一个重要特征
2,反映各变量值远离其中心值的程度,因此也称为 离中 趋势
3,从另一个侧面说明了集中趋势测度值的 代表程度
4,不同类型的数据有不同的离散程度测度值甲组,80 80 80 80 80 平均数为 80
乙组; 70 75 80 85 90 平均数为 80
丙组,2 18 25 96 259 平均数为 80
定类数据:异众比率
定序数据:四分位差
定距和定比数据:极差、方差及标准差
相对离散程度:离散系数一、极 差
1,一组数据的 最大值与最小值之差
2,离散程度的 最简单 测度值
3,易受 极端值 影响
4,未考虑 数据的分布
7 8 9 10 7 8 9 10
未分组数据 R = max(Xi) - min(Xi)
组距分组数据 R= 最高组上限 - 最低组下限
计算公式为例:上述三个组计算全距:
甲组 80 80 80 80 80的全距 =80-80=0
乙组 70 75 80 85 90的全距 =90-70=20
丙组 2 18 25 96 259的全距 =259-2=257
则:因为 0<20<257
所以:甲组的平均数的代表性要比乙组和丙组的平均数的代表性大;甲组内部的稳定性要比乙组和丙组内部的稳定性要好。
1
()
n
i
i
XX
N

平均差=
二、方差和标准差
6 3 8 5 3
1
n
i
i
XX
N

平均差=
二、方差和标准差
1,离散程度的测度值之一
2,最常用 的测度值
3,反映了 数据的分布
4,反映了 各变量值与均值的平均差异
5.根据总体数据计算的,称为 总体 方差或标准差;根据样本数据计算的,称为 样本 方差或标准差
4 6 8 10 12
X = 8.3
6 6 6 6 6 6 6 5 5 6 6 6 7 7
3 3 4 6 8 9 9 3 3 3 6 9 9 9
(一)总体方差和标准差未分组数据:
组距分组数据:
未分组数据:
组距分组数据:
方差的计算公式 标准差的计算公式
N
XX
N
i
i?
1
2
2
)(
2
2 1
1
()
K
ii
i
K
i
i
X X F
F

N
XX
N
i
i?
1
2)(
2
1
1
()
K
ii
i
K
i
i
X X F
F

总体标准差 (计算过程及结果)
3100.5
739.47
572.45
259.92
6.86
184.90
518.94
817.96
(Xi- X )2Fi

246.49
114.49
32.49
0.49
18.49
86.49
204.49
(Xi- X )2
50—合计
3
5
8
14
10
6
4
107.5
112.5
117.5
122.5
127.5
132.5
137.5
105~110
110~115
115~120
120~125
125~130
130~135
135~140
频数 (Fi)组中值 (Xi)按零件数分组表 3-3 某车间 50名工人日加工零件标准差计算表
【 例 3.13】 根据第三章表 3-3中的数据,计算工人日加工零件数的标准差
2
1
1
()
3100.5
7.87
50
K
ii
i
K
i
i
X X F
F


(个)
(二)样本方差和标准差未分组数据:
组距分组数据:
未分组数据:
组距分组数据:
方差的计算公式 标准差的计算公式注意:
样本方差用自由度
n-1去除 !
1
)(
1
2
2
1?
n
xx
S
n
i
i
n
k
i
i
k
i
ii
n
f
fxx
S
1
1
2
2
1
1
)(
1
)(
1
2
1
n
xx
S
n
i
i
n
k
i
i
k
i
ii
n
f
fxx
S
1
1
2
1
1
)(
样本方差自由度 (degree of freedom)
1,一组数据中可以自由取值的数据的个数 。
2,当样本数据的个数为 n 时,若样本均值?x
确定后,只有 n-1个数据可以自由取值,其中必有一个数据则不能自由取值 。
3,例如,样本有 3个数值,即 x1=2,x2=4,
x3=9,则?x = 5。 当?x = 5 确定后,x1,x2
和 x3有两个数据可以自由取值,另一个则不能自由取值,比如 x1=6,x2=7,那么 x3则必然取 2,而不能取其他值 。
样本方差
(算例 )
原始数据,10 5 9 13 6 8
3.8
16
)5.88()5.85()5.810(
1
)(
222
1
2
2
1

n
xx
S
n
i
i
n
样本方差样本标准差
(算例 )
样本标准差原始数据,10 5 9 13 6 8
88.23.8
1
)(
1
2
1
n
xx
S
n
i
i
n
总体方差的 简化计算公式分组数据未分组数据



2
22
2 11
2
2
2
2
1 1
1
2
( ) 2
2
N N n
i i i
i i i
i
i
i
N N
i
X X X X X N X
NN
X N X N X
N
X
X
N






2
221
1
()
K
ii
i
K
i
i
XF
X
F


样本方差的 简化计算公式样本方差
)1(11
)(
2
11
2
1
2
2
1


nn
x
n
x
n
xx
S
n
i
i
n
i
i
n
i
i
n
方差 (数学性质 )
各变量值对均值的方差小于对任意值的方差证明提示:设 X0为不等于?X 的任意数,D2为对 X0
的方差,则:

2
0
222
1
0
()
N
i
i
XX
D X X
N


(三)标准化值
1,也称标准分数
2,给出某一个值在一组数据中的相对位置
3,可用于判断一组数据是否有 离群点( 3σ )
4,用于对变量的标准化处理
5,计算公式为
1
ii
ii
n
X X x x
ZZ
S

或例:比较身高
前 NBA巨星 Michael Jordan身高 78英寸,而 WNBA运动员 R,Lobo身高 76英寸,很明显 Jordan高出 2英寸,但谁相对来说高一些呢?
(男性平均身高 69英寸,标准差为 2.8英寸;女性平均身高 63.6英寸,标准差为 2.5英寸)
78 69
,3.2 1
2.8
76 63,6
,4.9 6
2.5
i
i
XX
J orda n z
XX
L ob o z




Jordan的身高高于平均数 3.21个标准差,
而 Lobo的身高高于平均数 4.96个标准差。
三、变异系数
某地 7岁男童身高均数为 123.10cm,标准差为
4.71cm;体重的均数为 22.29kg,标准差为
2.26kg。
问,是身高的差异大还是体重的差异大三、标准差系数
(概念要点和计算公式 )
1.标准差与其相应的均值之比
2.消除了数据 水平高低 和 计量单位 的影响
3.测度了数据的 相对 离散程度
4.用于对不同组别数据离散程度的比较
计算公式为
x
SV
X
V s 或
男童的身高与体重
身高 Vσ=4.17/123.10=0.0383
体重 V σ =2.26/22.29=0.1014
可见,同一批儿童体重的差异更大标准差系数
(实例和计算过程)
表 3-6 某管理局所属 8家企业的产品销售数据企业编号 产品销售额(万元) X
1
销售利润(万元)
X2
1
2
3
4
5
6
7
8
170
220
390
430
480
650
950
1000
8.1
12.5
18.0
22.0
26.5
40.0
64.0
69.0
【 例 3.15】 某管理局抽查了所属的 8家企业,其产品销售数据如表 3-6。 试比较产品销售额与销售利润的离散程度标准差系数
(计算结果 )
X1=536.25(万元)
S1=309.19(万元)
V1= 536.25309.19 =0.577
S2=23.09(万元)
V2= 32.521523.09 =0.710
X2=32.5215(万元)
结论,计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度案例:标志变异指标度量风险
1964— 1976年台湾省各种投资工具报酬率比较股票 黄金 房地产银行定存单国库券通货膨胀率平均值 29.31 11.0 12.6 9.38 8.22 5.5
标准差 38.32 38.6 17.4 2.69 3.20 6.0
离散系数 1.31 3.51 1.38 0.29 0.39 1.09
几种离散测度的比较概 念 计 算 特 点数列中最大值与最小值之差1.极差( R)
R=最大值 -最小值 优点:容易理解,计算方便缺点:不能反映全部数据分布状况
2.平均差
( A,D)
各标志值与均值离差绝对值的算术平均 i
i
X X F iAD
F

iXXAD
n
简单:
加权:
优点:反映全部数据分布状况缺点:取绝对值
,数字上 不尽合理概 念 计 算 特 点各标志值与均值离差平方的平均 。
方差的平方根
( 取正根 )
3,方差
( σ2 )
和标准差
(σ)
优点:反映全部数据分布状况,
数字上合理 。
缺点:受计量单位和平均水平影响,不便于比较
4.标准差系 数
( Vσ)
标准差与均值之商,是无量纲的系数简单:
加权:
优点:适宜不同数据集的比较缺点:对数据结构变化反应不灵敏
22 X X F
F


22 iXX
n?

V X
2
方差( σ2)和标准差( σ)是应用最广的离散测度第三节 偏态与峰度的测度
一,偏态及其测度
二,峰度及其测度偏态与峰度分布的形状扁平分布尖峰分布偏态 峰度左偏分布右偏分布与标准正态分布比较!
偏态
(概念要点 )
1,数据分布偏斜程度的测度
2,偏态系数 =0为 对称分布
3,偏态系数 > 0为 右偏分布
4,偏态系数 < 0为 左偏分布
5,计算公式为

3
1
3
3
a
Fi
FXX
K
i
ii?
x Mo?
α3=0
x Mo?
α3>0
x Mo?
α3<0
Mo MoMox x x
(对称分布 ) 正偏态分布(右) 负偏态分布 (左)
偏度值 α 一般在 -3 ~ 3之间。
3为极度右偏斜
-3为极度左偏斜
绝大多数变量分布偏斜程度在 -1~ 1之间偏态
(实例 )
【 例 3,1 6 】 已知
1997年我国农村居民家庭按纯收入分组的有关数据如表
4.9。 试计算偏态系数表 3-7 1997年 农村居民家庭纯收入数据按纯收入分组
(元) 户数比重( %)
500以下
500~1000
1000~1500
1500~2000
2000~2500
2500~3000
3000~3500
3500~4000
4000~4500
4500~5000
5000以上
2.28
12.45
20.35
19.52
14.93
10.35
6.56
4.13
2.68
1.81
4.94
户数比重
(%)
25
20
15
10
5
农村居民家庭村收入数据的直方图偏态与峰度
(从直方图上观察 )
按纯收入分组 (元 )
1000500← 1500 2000 2500 3000 3500 4000 4500 5000 →
结论,1,为右偏分布
2,峰度偏高偏态系数
(计算过程)
表 3-8 农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组
(百元)
组中值
Xi
户数比重
(%)
Fi
(Xi- X ) 3 Fi (Xi- X ) 4Fi
5以下
5— 10
10— 15
15— 20
20— 25
25— 30
30— 35
35— 40
40— 45
45— 50
50以上
2.5
7.5
12.5
17.5
22.5
27.5
32.5
37.5
42.5
47.5
52.5
2.28
12.45
20.35
19.52
14.93
10.35
6.56
4.13
2.68
1.81
4.94
-154.64
-336.46
-144.87
-11.84
0.18
23.16
89.02
171.43
250.72
320.74
1481.81
2927.15
4686.51
1293.53
46.52
0.20
140.60
985.49
2755.00
5282.94
8361.98
46041.33
合计 — 100 1689.25 72521.25
偏态系数 (计算结果 )
根据上表数据计算得将计算结果代入公式得结论,偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大

956.07339.1766
25.1689
089.121
429.21
3
11
1
3
3
1
3
3′

i
ii
K
i
ii FX
∑F
FXX
a
1
1
2 1,4 2 9
K
i
i K
i
i
i
FXX
F?

(百元) 2
1
1
( ) 1 2,0 8 9
K
i
ii K
i
i
i
F
XX
F

(百元)
峰度
(概念要点 )
1,数据分布扁平程度的测度
2,峰度系数 =3为 扁平程度适中
3,峰度系数 <3为 扁平分布
4,峰度系数 >3为 尖峰分布
5,计算公式为
K
4
1
4
4?a ∑Fi
FXX
i
ii?
f(X)
峰度系数
(实例计算结果 )
代入公式得
【 例 3.17】 根据表 3-8中的计算结果,计算农村居民家庭纯收入分布的峰度系数由于峰度系数 α=3.4>3,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重

4.3089.121
25.72521
24
1
4
4?′?
a ∑F
FXX
K
i
ii
·