第三章 数据分布特征的描述
Std,Dev = 1.09
Mean = -.04
N = 100.00
第三章 数据分布特征的描述数据的特征和测度分布的形状集中趋势 离散程度众 数中位数变异系数标准差方差全距位置平均数数值平均数算术平均数几何平均数峰 度偏 态第一节 分布 集中趋势 的测度
1,一组数据向其 中心值 靠拢的倾向和程度
2,测度集中趋势就是寻找数据 一般水平的代表值 或 中心值
3,不同类型 的数据用不同的集中趋势测度值
4,低层次 数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次 数据的集中趋势测度值并不适用于低层次的测量数据
5,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定
运用集中趋势的 优点,使数据高度地简化
缺点,任何的简单化都意味着某
一,定类数据:众数
二,定序数据:中位数
三,定距和定比数据:数值平均数
(一)算术平均数
(二)几何平均数
四,众数、中位数和算术平均数的比较一、众数 (Mode)
1,集中趋势 的测度值之一
2,出现 次数最多 的变量值
3,位置平均数,不受极端值的影响
4,可能没有众数或有几个众数
5,主要用于 定类数据,也可用于定序数据和数值型数据
6,众数没有说明具体的差距,掩盖了许多信息 。
无众数原始数据,10 5 9 12 6 8
一个众数原始数据,6 5 9 8 5 5
多于一个众数原始数据,25 28 28 36 42 42
众数 (Mode)的确定
1,对定性资料、未分组资料和单值分组资料:
找出出现次数最多的变量值表 3-1 某城市居民关注广告类型的频数分布广告类型 人数 (人 ) 比例 频率 (%)
商品广告服务广告金融广告房地产广告招生招聘广告其他广告
112
51
9
16
10
2
0.560
0.255
0.045
0.080
0.050
0.010
56.0
25.5
4.5
8.0
5.0
1.0
合计 200 1 100
【 例 】 根据表 3-1中的数据,计算众数
(定类资料)
【 例 】 根据表 3-2中的数据,计算众数
(定序资料)
表 3-2 甲城市家庭对住房状况评价的频数分布回答类别 甲城市户数 (户 ) 百分比 (%)
非常不满意不满意一般满意非常满意
24
108
93
45
30
8
36
31
15
10
合计 300 100.0
2.数值型分组数据的众数
1,众数的值与相邻两组频数的分布 有关
500 800 1100 1400 1700 2000
50
100
150
1040
d1 d2
2.数值型分组数据的众数
4,该公式假定众数组的频数在众数组内均匀分布
2,相邻两组的频数相等时,众数组的组中值即为众数
3,相邻两组的频数不相等时,众数采用下列近似公式计算
1
0
11( ) ( )
ffM L i
f f f f
L:众数组的下限值,i:组距
Mo
Mo
Mo
f
f-1 f+1
数值型分组数据的众数表 3-3 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 累积频数
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
3
8
16
30
40
46
50
合计 50 —
【 例 3.1】
根据表 3-3
中的数据
,计算 50
名工人日加工零件数的众数
0
1 4 81 2 0 5 1 2 3 ( )
( 1 4 8 ) ( 1 4 1 0 )M
个莎士比亚著作中的众数
几个世纪以来,学者们怀疑是否莎士比亚写下了那许多记在他名下的精彩绝伦的戏剧和诗句。部分是因为人们认为莎士比亚这个历史人物是乡间的,没有文化的,而且他在世的时候,没有人认为他是作家,死后,没有留下任何私人信件、手稿或文学笔记。因此人们有理由怀疑作家威廉 ·莎士比亚可能另有其人。一些著名的受过很好教育,
而且有着丰富文献记录的人被认为写下了这些经典作品,甚至包括伊丽莎白一世女王本人都成了怀疑的对象。
一些作家用统计方法帮助莎士比亚得到了他的应有荣誉,这种方法依赖于众数的使用。
一个由 claremont学院本科学生组成的“莎士比亚诊所”,用统计分析对 58个与莎士比亚同时代的作家进行分析,以确定谁的写作风格与莎士比亚的作品风格最相近。
他们从 58个作家的作品中选取片段,并将其分成 500字一段的小段,对区组中的一些变量进行计数统计,例如,考察 52个关键字的出现情况,并找出其众数,由此得出各个作家的主要特征。
结果,27个备选者中没有一个能通过众数检验。因此证明,是莎士比亚写下了他本二、中位数 (Median)
1,集中趋势的测度值之一
2,排序后处于中间位置上的值
Me
50% 50%
3,不受极端值的影响,具有稳健性
4,主要用于定序数据,也可用数值型数据,但不能用于定类数据
5,各变量值与中位数的离差绝对值之和最小,即
1
m in
n
ie
i
XM
(一)中位数 位置的确定按观察值大小进行排序后,位于中间位置的观察值。
1,未分组数据和单变量分组数据,
2,组距分组数据,2
∑f?
中位数位置
2
1 N中位数位置
(二)中位数数值的计算
1.未分组数据和单变量分组数据
为偶数时当为奇数时当
NXX
NX
M
NN
N
e
1
22
2
1
2
1
数值型未分组数据的中位数
(5个数据的算例 )
原始数据,24 22 21 26 20
排 序,20 21 22 24 26
位 置,1 2 3 4 5
中位数? 22
3
2
15
2
1 N位置数值型未分组数据的中位数
(6个数据的算例 )
原始数据,10 5 9 12 6 8
排 序,5 6 8 9 10 12
位 置,1 2 3 4 5 6
位置N+1
2
6+1
2 3.5
中位数8 + 92 8.5
例:定序数据的中位数
【 例 3.2】 根据表 3-2中的数据,计算甲城市家庭对住房满意状况评价的中位数解,中位数的位置为:
300/2= 150
从累计频数看,中位数的在,一般,
这一组别中 。 因此
Me=一般表 3-2 甲城市家庭对住房状况评价的频数分布回答类别 甲城市户数 (户 ) 累计频数非 常 不 满意不满意一般满意非常满意
24
108
93
45
30
24
132
225
270
300
合计 300 —
1,根据位置公式 (N/2)确定中位数所在的组
2,采用下列近似公式计算:
该公式假定中位数组的频数在该组内均匀分布
2,数值型分组数据的中位数
if
SN
LM
m
m
e
12
N:数据个数 L:中位数所在组的下限
Sm-1:中位数所在组以前各组的累积频数
fm,中位数所在组的频数
i,中位数所在组的组距数值型分组数据的中位数 (算例 )
表 3-3 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 累积频数
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
3
8
16
30
40
46
50
合计 50 —
【 例 3.3】
根据第三章表 3-3中的数据,
计算 50 名工人日加工零件数的中位数
50
16
21 2 0 5 1 2 3,2 1 ( )
14e
M
个中位数的特点
优点:很好地代表了一组数据的中点,不受 极端数值 的影响。
缺点:没有利用所有信息。(除了中间值,
其他数值对它没有影响)
三、均值( Mean)
全部数据的算术平均,也称算术平均数。
1.集中趋势的测度值之一
2.最常用的测度值
3.一组数据的均衡点所在
4.易受极端值的影响
5,用于数值型数据,不能用于定类数据和定序数据算术平均数 (计算公式 )
设一组数据为,X1,X2,…,XN
简单均值 的计算公式为设分组后的数据为,X1,X2,…,XK
相应的频数为,F1,F2,…,FK
加权均值 的计算公式为
N
X
N
XXX
X
N
i
i
N
121?
K
i
i
K
i
ii
N
NN
F
FX
FFF
FXFXFX
X
1
1
21
2211
算术平均数的性质均值是一组数据的 重心 所在,是数据误差相互抵销后的结果。
均值的特点
优点:对变量的每一个观察值都加以利用,
包含了更多的信息。
缺点:计算麻烦,受极端数值影响。
算术平均数的数学性质
1.各变量值与均值的离差之和等于零
2,各变量值与均值的离差平方和最小
2
1
( ) m in
n
i
i
XX
1
( ) 0
n
i
i
XX
1
( ) 0
n
ii
i
X X f
2
1
( ) m in
n
ii
i
X X f
四、几何平均数( G Mean)
1,集中趋势的测度值之一
2,N 个变量值乘积的 N 次方根
3,适用于特殊的数据
4,主要用于计算平均发展速度
5,计算公式为
6,可看作是均值的一种变形
12
1
N
N N
M N i
i
G X X X X
1
12
l o g
1l o g ( l o g l o g l o g )
N
i
i
MN
X
G X X X
NN
几何平均数
(算例 )
【 例 3.9】 一位投资者持有一种股票,
1996年,1997年,1998年和 1999年收益率分别为 4.5%,2.0%,3.5%,5.4%。 计算该投资者在这四年内的平均收益率 。
%84.103
%4.105%5.103%0.102%5.1044
21
N
NM
XXXG?
平均收益率= 103.84%-1=3.84%
五、众数、中位数和均值的关系
(一)关系
X
f
X
f
x M e M o
(对称分布 )
x M e M o
正偏态分布(右)
x M e M o
负偏态分布 (左)
12 1 2
X
f
xMeMo xMeMo x Me Mo
五、众数、中位数和均值的关系
在偏斜不大时
2 ( )M e M o x M e
32M o M e x
2
3
M o xMe 3
2
M e M ox
Mo Me x
2/3 1/3
X0
五、众数、中位数和均值的关系
(二)特点和应用场合极端值影响的角度数学性质各种测度适用于何种尺度?
表 3-5 数据类型和所适用的集中趋势测度值数据类型 定类数据定序数据 定距数据定比数据适用的测度值众数 中位数 算术平均 数 算术平 均数
— 众数 众数 调和平 均数
— 中位数 几何平 均数
— — 中位数
— — — 众数红色为该数据类型最适合用的测度值小结:
均值中位数( 12个数大于它,12个数小于它)
众数小结:“平均”(集中趋势)意味着不同含义
十个家庭的年收入如下:
54000 39000 37500 36750 35250
31500 31500 31500 31500 25500
这一群体的典型收入是多少?
35400iXX N均值,=
33375eM?中位数:
31500oM?众数:
Std,Dev = 1.09
Mean = -.04
N = 100.00
第三章 数据分布特征的描述数据的特征和测度分布的形状集中趋势 离散程度众 数中位数变异系数标准差方差全距位置平均数数值平均数算术平均数几何平均数峰 度偏 态第一节 分布 集中趋势 的测度
1,一组数据向其 中心值 靠拢的倾向和程度
2,测度集中趋势就是寻找数据 一般水平的代表值 或 中心值
3,不同类型 的数据用不同的集中趋势测度值
4,低层次 数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次 数据的集中趋势测度值并不适用于低层次的测量数据
5,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定
运用集中趋势的 优点,使数据高度地简化
缺点,任何的简单化都意味着某
一,定类数据:众数
二,定序数据:中位数
三,定距和定比数据:数值平均数
(一)算术平均数
(二)几何平均数
四,众数、中位数和算术平均数的比较一、众数 (Mode)
1,集中趋势 的测度值之一
2,出现 次数最多 的变量值
3,位置平均数,不受极端值的影响
4,可能没有众数或有几个众数
5,主要用于 定类数据,也可用于定序数据和数值型数据
6,众数没有说明具体的差距,掩盖了许多信息 。
无众数原始数据,10 5 9 12 6 8
一个众数原始数据,6 5 9 8 5 5
多于一个众数原始数据,25 28 28 36 42 42
众数 (Mode)的确定
1,对定性资料、未分组资料和单值分组资料:
找出出现次数最多的变量值表 3-1 某城市居民关注广告类型的频数分布广告类型 人数 (人 ) 比例 频率 (%)
商品广告服务广告金融广告房地产广告招生招聘广告其他广告
112
51
9
16
10
2
0.560
0.255
0.045
0.080
0.050
0.010
56.0
25.5
4.5
8.0
5.0
1.0
合计 200 1 100
【 例 】 根据表 3-1中的数据,计算众数
(定类资料)
【 例 】 根据表 3-2中的数据,计算众数
(定序资料)
表 3-2 甲城市家庭对住房状况评价的频数分布回答类别 甲城市户数 (户 ) 百分比 (%)
非常不满意不满意一般满意非常满意
24
108
93
45
30
8
36
31
15
10
合计 300 100.0
2.数值型分组数据的众数
1,众数的值与相邻两组频数的分布 有关
500 800 1100 1400 1700 2000
50
100
150
1040
d1 d2
2.数值型分组数据的众数
4,该公式假定众数组的频数在众数组内均匀分布
2,相邻两组的频数相等时,众数组的组中值即为众数
3,相邻两组的频数不相等时,众数采用下列近似公式计算
1
0
11( ) ( )
ffM L i
f f f f
L:众数组的下限值,i:组距
Mo
Mo
Mo
f
f-1 f+1
数值型分组数据的众数表 3-3 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 累积频数
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
3
8
16
30
40
46
50
合计 50 —
【 例 3.1】
根据表 3-3
中的数据
,计算 50
名工人日加工零件数的众数
0
1 4 81 2 0 5 1 2 3 ( )
( 1 4 8 ) ( 1 4 1 0 )M
个莎士比亚著作中的众数
几个世纪以来,学者们怀疑是否莎士比亚写下了那许多记在他名下的精彩绝伦的戏剧和诗句。部分是因为人们认为莎士比亚这个历史人物是乡间的,没有文化的,而且他在世的时候,没有人认为他是作家,死后,没有留下任何私人信件、手稿或文学笔记。因此人们有理由怀疑作家威廉 ·莎士比亚可能另有其人。一些著名的受过很好教育,
而且有着丰富文献记录的人被认为写下了这些经典作品,甚至包括伊丽莎白一世女王本人都成了怀疑的对象。
一些作家用统计方法帮助莎士比亚得到了他的应有荣誉,这种方法依赖于众数的使用。
一个由 claremont学院本科学生组成的“莎士比亚诊所”,用统计分析对 58个与莎士比亚同时代的作家进行分析,以确定谁的写作风格与莎士比亚的作品风格最相近。
他们从 58个作家的作品中选取片段,并将其分成 500字一段的小段,对区组中的一些变量进行计数统计,例如,考察 52个关键字的出现情况,并找出其众数,由此得出各个作家的主要特征。
结果,27个备选者中没有一个能通过众数检验。因此证明,是莎士比亚写下了他本二、中位数 (Median)
1,集中趋势的测度值之一
2,排序后处于中间位置上的值
Me
50% 50%
3,不受极端值的影响,具有稳健性
4,主要用于定序数据,也可用数值型数据,但不能用于定类数据
5,各变量值与中位数的离差绝对值之和最小,即
1
m in
n
ie
i
XM
(一)中位数 位置的确定按观察值大小进行排序后,位于中间位置的观察值。
1,未分组数据和单变量分组数据,
2,组距分组数据,2
∑f?
中位数位置
2
1 N中位数位置
(二)中位数数值的计算
1.未分组数据和单变量分组数据
为偶数时当为奇数时当
NXX
NX
M
NN
N
e
1
22
2
1
2
1
数值型未分组数据的中位数
(5个数据的算例 )
原始数据,24 22 21 26 20
排 序,20 21 22 24 26
位 置,1 2 3 4 5
中位数? 22
3
2
15
2
1 N位置数值型未分组数据的中位数
(6个数据的算例 )
原始数据,10 5 9 12 6 8
排 序,5 6 8 9 10 12
位 置,1 2 3 4 5 6
位置N+1
2
6+1
2 3.5
中位数8 + 92 8.5
例:定序数据的中位数
【 例 3.2】 根据表 3-2中的数据,计算甲城市家庭对住房满意状况评价的中位数解,中位数的位置为:
300/2= 150
从累计频数看,中位数的在,一般,
这一组别中 。 因此
Me=一般表 3-2 甲城市家庭对住房状况评价的频数分布回答类别 甲城市户数 (户 ) 累计频数非 常 不 满意不满意一般满意非常满意
24
108
93
45
30
24
132
225
270
300
合计 300 —
1,根据位置公式 (N/2)确定中位数所在的组
2,采用下列近似公式计算:
该公式假定中位数组的频数在该组内均匀分布
2,数值型分组数据的中位数
if
SN
LM
m
m
e
12
N:数据个数 L:中位数所在组的下限
Sm-1:中位数所在组以前各组的累积频数
fm,中位数所在组的频数
i,中位数所在组的组距数值型分组数据的中位数 (算例 )
表 3-3 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 累积频数
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
3
8
16
30
40
46
50
合计 50 —
【 例 3.3】
根据第三章表 3-3中的数据,
计算 50 名工人日加工零件数的中位数
50
16
21 2 0 5 1 2 3,2 1 ( )
14e
M
个中位数的特点
优点:很好地代表了一组数据的中点,不受 极端数值 的影响。
缺点:没有利用所有信息。(除了中间值,
其他数值对它没有影响)
三、均值( Mean)
全部数据的算术平均,也称算术平均数。
1.集中趋势的测度值之一
2.最常用的测度值
3.一组数据的均衡点所在
4.易受极端值的影响
5,用于数值型数据,不能用于定类数据和定序数据算术平均数 (计算公式 )
设一组数据为,X1,X2,…,XN
简单均值 的计算公式为设分组后的数据为,X1,X2,…,XK
相应的频数为,F1,F2,…,FK
加权均值 的计算公式为
N
X
N
XXX
X
N
i
i
N
121?
K
i
i
K
i
ii
N
NN
F
FX
FFF
FXFXFX
X
1
1
21
2211
算术平均数的性质均值是一组数据的 重心 所在,是数据误差相互抵销后的结果。
均值的特点
优点:对变量的每一个观察值都加以利用,
包含了更多的信息。
缺点:计算麻烦,受极端数值影响。
算术平均数的数学性质
1.各变量值与均值的离差之和等于零
2,各变量值与均值的离差平方和最小
2
1
( ) m in
n
i
i
XX
1
( ) 0
n
i
i
XX
1
( ) 0
n
ii
i
X X f
2
1
( ) m in
n
ii
i
X X f
四、几何平均数( G Mean)
1,集中趋势的测度值之一
2,N 个变量值乘积的 N 次方根
3,适用于特殊的数据
4,主要用于计算平均发展速度
5,计算公式为
6,可看作是均值的一种变形
12
1
N
N N
M N i
i
G X X X X
1
12
l o g
1l o g ( l o g l o g l o g )
N
i
i
MN
X
G X X X
NN
几何平均数
(算例 )
【 例 3.9】 一位投资者持有一种股票,
1996年,1997年,1998年和 1999年收益率分别为 4.5%,2.0%,3.5%,5.4%。 计算该投资者在这四年内的平均收益率 。
%84.103
%4.105%5.103%0.102%5.1044
21
N
NM
XXXG?
平均收益率= 103.84%-1=3.84%
五、众数、中位数和均值的关系
(一)关系
X
f
X
f
x M e M o
(对称分布 )
x M e M o
正偏态分布(右)
x M e M o
负偏态分布 (左)
12 1 2
X
f
xMeMo xMeMo x Me Mo
五、众数、中位数和均值的关系
在偏斜不大时
2 ( )M e M o x M e
32M o M e x
2
3
M o xMe 3
2
M e M ox
Mo Me x
2/3 1/3
X0
五、众数、中位数和均值的关系
(二)特点和应用场合极端值影响的角度数学性质各种测度适用于何种尺度?
表 3-5 数据类型和所适用的集中趋势测度值数据类型 定类数据定序数据 定距数据定比数据适用的测度值众数 中位数 算术平均 数 算术平 均数
— 众数 众数 调和平 均数
— 中位数 几何平 均数
— — 中位数
— — — 众数红色为该数据类型最适合用的测度值小结:
均值中位数( 12个数大于它,12个数小于它)
众数小结:“平均”(集中趋势)意味着不同含义
十个家庭的年收入如下:
54000 39000 37500 36750 35250
31500 31500 31500 31500 25500
这一群体的典型收入是多少?
35400iXX N均值,=
33375eM?中位数:
31500oM?众数: