精品课程
,统计基础,
经济管理系课题组
版权所有:马如武 王桂芳
? 第 5章 数据分布特征的描述
? 【 学习目标 】
? 本章主要介绍了数据分布特征的描述的基本理论,
包括平均指标和变异指标的基本概念、种类以及
各种计算方法,计算和应用平均指标应注意的问
题等。通过学习,使学习者能够掌握数据分布的
集中趋势和离散特征,为经济管理服务。
? 【 学习要求 】
? 通过本章的学习,要求理解并掌握平均指标和
变异指标的基本概念,熟练掌握各种计算方法,
明确计算和运用平均指标应注意的问题等等。
? 【 学习内容 】
? 统计数据分布的特征,可以从三个方面进行测度和描述:一是分布
的集中趋势,反映各数据向其中心值靠拢或聚集的程度,如算术平均
数;二是分布的离中趋势,反映各数据远离其中心值的程度,如标准
差;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分别
反映了数据分布特征的不同侧面,第一、二方面是主要的。本章重点 讨论第一、第二两方面代表值的计算方法、特点及其应用场合。
?
? 5.1 集中趋势 ——数值平均数
? 集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是
寻找数据一般水平的代表值或中心值。取得集中趋势代表值的方法通
常有两种:一是从总体各单位变量值中抽象出具有一般水平的量,这
个量不是各个单位的具体变量值,但又要反映总体各单位的一般水平,
这种平均数称为数值平均数。数值平均数有算术平均数、调和平均数、
几何平均数等形式。二是先将总体各单位的变量值按一定顺序排列,
然后取某一位置的变量值来反映总体各单位的一般水平,把这个特殊
位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、
中位数、四分位数等形式。
? 5.1.1算术平均数
? 算术平均数,是集中趋势测度中最重要的一种,
它是所有平均数中应用最广泛的平均数。
? 算术平均数 =
? 1,简单算术平均数( Simple Arithmetic Mean)
? 根据未经分组整理的原始数据计算的均值。设一
组数据为 x1,x1,… xn,则简单算术平均数的计
算公式如下:
)(
)(
变量值个数总体单位总量
变量值总量总体标志总量
n
x
n
xxxx n ?=+++= ?21
? 例 5–1 据南方人才服务中心调查,从事 IT行业的
从业人员年薪在 40000-55000元之间,表 5–1的
数据是 IT从业人员年薪的一个样本:
? 计算 IT从业人员的平均年薪。
? 根据公式计算如下:
49100 48600 49950 48800 47200 49900 51350 54600
49300 51200 51000 49400 51400 51800 49600 53400
48700 50300 49000 49800 48900 48650 51300 51900
表 5 – 1 2 4 名 IT 从业人员年薪资料表
)(58.5 0 2 1 4
24
5 1 9 0 05 3 4 0 04 9 3 0 04 9 1 0 01 元平均年薪 ??????? ?? ?
n
x
n
i
i
x
? 2,加权算术平均数( Weighted Arithmetic
Mean)
? 根据分组整理的数据计算的算术平均数。
其计算公式为:
? ( 5–2)
? 式中,f 代表各组变量值出现的频数。
? 例 5–2 以表 5–2为例,计算人均日产量。计
算表见表 5–2。
f
xf
fff
fxfxfxx
n
nn
?
??
???
???
?
?
21
2211=
按零件数分
组
组中值 x 频数 f xf
105 ~ 110 107.5 3 322.5
110 ~ 115 112.5 5 562.5
115 ~ 120 117.5 8 940
120 ~ 125 122.5 14 1715
125 ~ 130 127.5 10 1275
130 ~ 135 132.5 6 795
135 ~ 140 137.5 4 550
合 计 –– 50 6160
表 5 – 2 某企业 50 名工人加工零件均值计算表
平均日产量=
(件)== 2.123
50
6 1 6 0
f
xf
?
?
? 3,算术平均数性质
? 算术平均数在统计学中具有重要的地位,它是进行统计
分析和统计推断的基础。首先,从统计思想上看,它是一
组数据的重心所在,是数据误差相互抵消后的必然性结果
? 其次,它具有下面一些重要的数学性质,这些数学性质在
实际工作中有着广泛的应用(如在相关性分析和方差分析
及建立回归方程中),同时也体现了算术平均数的统计思
想。
? 1.各变量值与其算术平均数的离差之和等于零,即
? ∑ = 0;
? 2.各变量值与其算术平均数的离差平方和最小,即
? ∑ =min。
fxx )( ?
fxx 2)( ?
? 4,利用计算工具求算术平均数
? ( 1)利用计算器计算
? 对于未整理的原始数据或已整理分组的数列,均可利用计算器的统计功能计算算术平均数。需要特别注意的是,
当资料为变量数列时,一定要遵循以下输入顺序:先输入变量值,然后输入乘号键,接下来输入频数值,绝对不能
颠倒次序。
? ( 2)利用计算机计算
? 运用计算机技术,不但能使人们从大量繁杂的手工处理数据的工作中解脱出来,而且还可能大大提高对统计数据
的利用率。虽然功能强大的统计软件包在一般人使用的电脑上没有安装,但使用,office”软件的用户超过 90%,而
用,office”软件中的,excel”组件足可以及时、准确、完整地将有关统计常用的基本统计量(如本章的算术平均数)
等迅速提供给人们。
? 下面举一个简单的例子说明利用,excel”计算算术平均数的步骤。如,计算某班上学期期末考试各科平均成绩。
? 方法一:
? 第一步 打开,excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录
一名学生的各科成绩);
? 第二步 选择(单击)“工具”下拉菜单;
? 第三步 选择(单击)“数据分析”选项;
? 第四步 从弹出的“分析工具”中选择(单击)“描述统计”并单击“确定”;
? 第五步 在对话框中的“输入区域”框内键入要计算的单元格区域(如果包括字段行,则须选中“标志位于第一
行”复选框。若分组方式为逐行,则该复选框选定标志位于第一列);在“输出选项”中选择输出区域;选择“汇
总统计”(该选项给出全部描述统计量);单击“确定”。
? 方法二:
? 第一步 打开,excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录
一名学生的各科成绩);
? 第二步 在适当的单元格内输入计算公式(以每行记录一名学生的各科成绩为例,假设第一行依次为姓名及各考
试科目名称,最后一名学生第一科的成绩所在单元格为 B45,则可在 B46单元格输入计算公式“,average( b2:
b45)”),然后回车;或者在适当的单元格内插入函数(选择“插入”下拉菜单,然后选择“函数”,接下来从
弹出的对话框左边的函数类别中选择“统计”,再从对话框右边的函数名中选择,Average”,最后单击“确定”);
? 第三步 选定第二步计算结果所在单元格,复制其他考试科目的平均成绩。
? 5.1.2 调和平均数( Harmonic Mean)
? 1,调和平均数的计算方法
? 与算术平均数类似,调和平均数也有简单的和加
权的两种形式,其计算公式分别为:
? ( 5–3)
? ( 5–4)
? 由于调和平均数也可以看成是变量 x的倒数的算术
平均数的倒数,故有时也被称作“倒数平均数”。
?
?
?
???
? n
i in x
n
xxx
nH
121
1111 ?
?
?
?
??
???
???
?
n
i i
i
n
i
i
n
n
n
x
m
m
x
m
x
m
x
m
mmm
H
1
1
2
2
1
1
21
?
?
? 例 5–4 假定有 A,B两家公司员工的月工资资料
如表 5–4的前三列。试分别计算其平均工资。 A 公司 B 公司 A 公司 B 公司
800 48000 40000 60 50
1000 70000 40000 70 40
1600 32000 40000 20 25
合计 150000 120000 150 115
月工资 x ( 元 )
工资总额 m( 元 ) 员工人数 f= m / x ( 人 )
表 5 – 4 两公司员工工资情况表
)(1000150/1 5 0 0 0 0
1600
3 2 0 0 0
1000
7 0 0 0 0
800
4 8 0 0 0
3 2 0 0 07 0 0 0 04 8 0 0 0
3
1
3
1
元??
??
??
??
?
?
?
?
i i
i
i
i
A
x
m
m
H
1 6 0 0
4 0 0 0 0
1 0 0 0
4 0 0 0 0
800
4 0 0 0
4 0 0 0 04 0 0 0 04 0 0 0 0
3
1
3
1
??
????
?
?
?
?
i i
i
i
i
B
x
m
m
H
(元)48.10431151 2 0 0 0 0 ??
? 2,由相对数或平均数计算平均
数
? 例 5–5 设有某行业 150个企业
的有关产值和利润资料如表 5–5
企业数 ( 个 ) 实际产值 ( 万
元 )
企业数 ( 个 ) 实际利润 ( 万
元 )
5 月 10 日 30 5700 50 710
10 月 20 日 70 20500 80 3514
20 - 30 50 22500 20 2250
合 计 150 48700 150 6474
产值利润率
( % )
一 季 度 二 季 度
表 5 – 5 某行业产值和利润情况表
%1 0 0?? 实际产值实际利润产值利润率
%74.18
4 8 7 0 0
5.9 1 2 7
2 2 5 0 02 0 5 0 05 7 0 0
2 2 5 0 025.02 0 5 0 015.05 7 0 00 7 5.0
??
??
??????
?
??
f
xf
产值利润率
一季度平均
%45.15
3.4 1 8 9 3
6 4 7 4
25.0
2 2 5 0
15.0
3 5 1 4
0 7 5.0
7 1 0
2 2 5 03 5 1 47 1 0
??
??
??
?
?
?
?
x
m
m
产值利润率
二季度平均
? 3,调和平均数特点
? ( 1)调和平均数易受极端值的影响,且受
极小值的影响比受极大值的影响更大。
? ( 2)只要有一个变量值为零,就不能计算
调和平均数。
? ( 3)当组距数列有开口组时,其组中值即
使按相邻组距计算了,假定性也很大,这
时,调和平均数的代表性就很不可靠。
? ( 4)调和平均数应用的范围较小。
? 5.1.3 几何平均数( Geometric Mean)
? 几何平均数也称几何均值,它是 n个变量值乘积的
n次方根。根据统计资料的不同,几何平均数也有
简单几何平均数和加权几何平均数之分。
? 1,简单几何平均数( Simple Geometric Mean)
? 直接将 n项变量连乘,然后对其连乘积开 n次方根
所得的平均数即为简单几何平均数。它是几何平
均数的常用形式。计算公式为:
?
? ( 5–5)
? 式中,G代表几何平均数,代表连乘符号
n
n
i
in
n xxxxxG ?
?
????
1
321 ??
? 例 5–6 某流水生产线有前后衔接的五道工
序。某日各工序产品的合格率分别为 95%、
92%,90%,85%,80%,整个流水生产
线产品的平均合格率为:
%24.885 3 4 9.0
80.085.090.092.095.0
5
5
??
?????G
? 2,加权几何平均数( Weighted Geometric
Mean)
? 与算术平均数一样,当资料中的某些变量
值重复出现时,相应地,简单几何平均数
就变成了加权几何平均数。计算公式为:
? ( 5–6)
? 式中,fi代表各个变量值出现的次数。
f
n
i
f
i
f f
n
fff
G
in xxxxxx ?
?
? ?????
1
321
321 ?
? 例 5–7 某工商银行某项投
资年利率是按复利计算的。
20年的利率分配如表 5–6,
计算 20年的平均年利率。
? 按公式计算 20年的平均年
利率:
? 即 20年的平均年利率为
114.14%-1=14.14%
年限 年利率
( % )
本利率
( % ) x
i
年数(个)
f
i
第 1 年 5 105 1
第 2 年至第 4
年
8 108 3
第 5 年至第 15
年
15 115 11
第 16 年至第
20 年
18 118 5
合 计 — — 20
表 5 – 6 投资年利率分组表
%14.1 1 418.115.108.105.120 51131 ?? ???Gx
? 3,几何平均数特点
? ( 1)几何平均数受极端值的影响较算术平
均数小。
? ( 2)如果变量值有负值,计算出的几何平
均数就会成为负数或虚数。
? ( 3)它仅适用于具有等比或近似等比关系
的数据。
? ( 4)几何平均数的对数是各变量值对数的
算术平均数。
? 5.2 集中趋势 ——位置平均数
? 位置平均数,就是根据总体中处于特殊位
置上的个别单位或部分单位的标志值来确
定的代表值,它对于整个总体来说,具有
非常直观的代表性,因此,常用来反映分
布的集中趋势。常用的众数、中位数。
? 5.2.1 众数( Mode)
? 1,众数的含义
? 某制鞋厂要了解消费者最需要哪种型号
的男皮鞋,调查了某百货商场某季度男
皮鞋的销售情况,得到资料如表 5–7。
? 从表 5–7可以看到,25.5厘米的鞋号销售
量最多,如果我们计算算术平均数,则
平均号码为 25,65厘米,而这个号码显然
是没有实际意义的,而直接用 25.5厘米
作为顾客对男皮鞋所需尺寸的集中趋势
既便捷又符合实际。
? 统计上把这种在一组数据中出现次数最
多的变量值叫做众数。用 Mo表示。它主
要用于定类(品质标志)数据的集中趋
势,当然也适用于作为定序(品质标志)
数据以及定距和定比(数量标志)数据
集中趋势的测度值。上面的例子中,鞋
号 25,5厘米就是众数。
男皮鞋号码 /
厘米
销售量 / 双
24 12
24.5 84
25 118
25.5 541
26 320
26.5 104
27 52
合计 1200
某商场某季度男皮鞋销售情况
? 2,众数计算
? 式中,L—— 众数所在组下限;
? U—— 众数所在组上限;
? Δ1——众数所在组次数与其下限的邻组次数之差;
? Δ2——众数所在组次数与其上限的邻组次数之差;
? d——众数所在组组距。
dLM ???? ???
21
1
0
dUM ???? ???
21
2
0
? 例 5–8 根据表 5–2的数据,计算 50名工人日加工
零件数的众数。
? 解:从表 5–2中的数据可以看出,最大的频数值
是 14,即众数组为 120~125这一组,根据公式
( 5–7)得 50名工人日加工零件的众数为:
)(1235
)1014()814(
814120
0 件?????
???M
)(1235
)1014()814(
1014125
0 件?????
???M
? 3,众数特点
? ( 1)众数是以它在所有标志值中所处的位置确定的全体
单位标志值的代表值,它不受分布数列的极大或极小值的
影响,从而增强了众数对分布数列的代表性。
? ( 2)当分组数列没有任何一组的次数占多数,也即分布
数列中没有明显的集中趋势,而是近似于均匀分布时,则
该次数分配数列无众数。若将无众数的分布数列重新分组
或各组频数依序合并,又会使分配数列再现出明显的集中
趋势。
? ( 3)如果与众数组相比邻的上下两组的次数相等,则众
数组的组中值就是众数值;如果与众数组比邻的上一组的
次数较多,而下一组的次数较少,则众数在众数组内会偏
向该组下限;如果与众数组比邻的上一组的次数较少,而
下一组的次数较多,则众数在众数组内会偏向该组上限。
? ( 4)缺乏敏感性。这是由于众数的计算只利用了众数组
的数据信息,不象数值平均数那样利用了全部数据信息。
? 5.2..2 中位数( Median)
? 1,中位数的含义
? 中位数是将数据按大小顺序排列起来,形
成一个数列,居于数列中间位置的那个数
据就是中位数。中位数用 Me表示。
? 2,中位数的计算
? 确定中位数,必须将总体各单位的标志值
按大小顺序排列,最好是编制出变量数列 。
? 有两种情况:
? ( 1)对于未分组的原始资料,首先必须将标志值
按大小排序。设排序的结果为:
? 则中位数就可以按
? 右面的方式确定:
? 例如,根据例 5–2的数据,计算 50名工人日加工
零件数的中位数。中位数的位置在( 50+1) /2 =
25.5,中位数在第 25个数值( 123)和第 26个数
值( 123)之间,即 Me = (123+123)/2=123(件 )。
nxxxx ???? ?321
?
?
?
?
?
?
?
?
?
?
?
?
?
为偶数)(
为奇数)(
n
xx
nx
M
nn
n
e
2
1
22
2
1
? ( 2)由分组资料确定中位数
? 由组距数列确定中位数,应先按 的公式求出中位数所在组
的位置,然后再按下限公式或上限公式确定中位数。
? 式中,Me——中位数;
? L——中位数所在组下限;
? U——中位数所在组上限;
? fm——为中位数所在组的次数;
? ——总次数;
? d——中位数所在组的组距;
? Sm–1——中位数所在组以下的累计次数;
? Sm+1——中位数所在组以上的累计次数。
d
f
Sf
UM
d
f
Sf
LM
m
m
e
m
m
e
?
?
??
?
?
??
?
?
?
?
1
1
)2/(
)2/(
:
:
上限公式
下限公式
2?
f
? 由表 5–8可知,中位数的
位置 = 50/2 = 25,即中位
数在 120~ 125这一组,L
= 120,Sm–1 = 16,
U=125,Sm+1 =20,fm
= 14,d = 5,根据中位数
公式得:
? 或
按零件数分
组 ( 个 )
频数 ( 人 ) 向上累计
( 人 )
向下累计
( 人 )
105 ~ 110 3 3 50
110 ~ 115 5 8 47
115 ~ 120 8 16 42
120 ~ 125 14 30 34
125 ~ 130 10 40 20
130 ~ 135 6 46 10
135 ~ 140 4 50 4
某企业 50 名工人加工零件中位数计算表
)(21.123514
16250
120 件??
?
??eM
)(21.1235
14
20
2
50
125 件??
?
??eM
? 3,中位数特点
? ( 1)中位数是以它在所有标志值中所处的
位置确定的全体单位标志值的代表值,不
受分布数列的极大或极小值影响,从而在
一定程度上提高了中位数对分布数列的代
表性。
? ( 2)有些离散型变量的单项式数列,当次
数分布偏态时,中位数的代表性会受到影
响。
? ( 3)缺乏敏感性。
? (二) 的关系x em 0m
x em 0m xem0m0e mmx ??
对称分布 左偏分布 右偏分布
返回
? 5.3 离中趋势
? 5.3.1 离中趋势的测定 ——变异指标
? 变异指标是反映总体各单位标志值的差别大小程度的综合
指标,又称标志变动度。平均指标反映总体一般数量水平
的同时,掩盖了总体各单位标志值的数量差异。变异指标
弥补了这方面的不足,它综合反映了总体各单位标志值的
差异性,从另一方面说明了总体的数量特征。平均指标说
明总体各单位标志值的集中趋势,而变异指标则说明标志
值的分散程度或离中趋势。
? 变异指标是衡量平均指标代表性的尺度。一般来讲,数据
分布越分散,变异指标越大,平均指标的代表性越小;数
据分布越集中,变异指标越小,平均指标的代表性越大。
常用的变异指标有:全距、平均差、方差和标准差、变异
系数。
? 5.3.2 全距( Range)
? 全距也称为极差,是指总体各单位的两个极端标志值之差,
即:
? R=最大标志值-最小标志值
? 因此,全距( R)可反映总体标志值的差异范围。
? 例 5–10 有两个学习小组的统计学开始成绩分别为:
? 第一组,60,70,80,90,100
? 第二组,78,79,80,81,82
? 很明显,两个小组的考试成绩平均分都是 80分,但是哪一
组的分数比较集中呢?
? 如果用全距指标来衡量,则有
? R甲= 100- 60= 40(分)
? R乙= 82- 78= 4(分)
? 这说明第一组资料的标志变动度或离中趋势远大于第二组
资料的标志变动度。
? 根据组距计算极差,是测定标志变动度的
一种简单方法,但受极端值的影响,因而
它往往不能充分反映社会经济现象的离散
程度。
? 在实际工作中,全距常用来检查产品质量
的稳定性和进行质量控制。在正常生产条
件下,全距在一定范围内波动,若全距超
过给定的范围,就说明有异常情况出现。
因此,利用全距有助于及时发现问题,以
便采取措施,保证产品质量
? 5.3.3 平均差( Mean Deviation)
? 平均差是总体各单位标志对其算术平均数
的离差绝对值的算术平均数。它综合反映
了总体各单位标志值的变动程度。平均差
越大,则表示标志变动度越大,反之则表
示标志变动度越小。
? 在资料未分组的情况下,平均差的计算公
式为
? A.D=
N
xx? ?
? 在资料已分组的情况下,要用加权平均差
公式:
? A.D=
?
? ?
f
fxx
? 5.3.4 方差( Variance)与标准差( Standard
Deviation)
? 方差和标准差是测度数据变异程度的最重要、最
常用的指标。方差是各个数据与其算术平均数的
离差平方的平均数,通常以 σ2表示。方差的计量
单位和量纲不便于从经济意义上进行解释,所以
实际统计工作中多用方差的算术平方根 –––标准
差来测度统计数据的差异程度。标准差又称均方
差,一般用 σ表示。方差和标准差的计算也分为简
单平均法和加权平均法,另外,对于总体数据和
样本数据,公式略有不同。
? 1,总体方差和标准差
? 设总体方差为,对于未经分组整理的原
始数据,方差的计算公式为:
?
? ( 5–12)
? 对于分组数据,方差的计算公式为,N
XX
N
i
i?
?
?
1
2
2
)(
=?
?
?
?
?
?
K
i
i
i
K
i
i
f
fXX
1
1
2
2
)(
=?
? 方差的平方根即为标准差,其相应的计算
公式为:
? 未分组数据,( 5–14)
? 分组数据:
N
XX
N
i
i?
?
?
1
2)(
=?
?
?
?
?
?
K
i
i
i
K
i
i
f
fXX
1
1
2)(
=?
? 2,样本方差和标准差
? 样本方差与总体方差在计算上的区别是:
总体方差是用数据个数或总频数去除离差
平方和,而样本方差则是用样本数据个数
或总频数减 1去除离差平方和,其中样本数
据个数减 1即 n- 1称为自由度。设样本方差
为,根据未分组数据和分组数据计算样
本方差的公式分别为:
21?nS
? 未分组数据,( 5–16)
? 分组数据,( 5–17)
? 未分组数据,( 5–18)
? 分组数据,( 5–19)
1
1
2
2
1 ?
??
?
? n
xx
S
n
i
i
n
)(
=
?
?
?
?
?
?
?
k
i
i
i
k
i
i
n
f
fxx
S
1
1
2
2
1
1
)(
=
1
1
2
1 ?
??
?
? n
xx
S
n
i
n
)(
=
1
1
1
2
1
?
?
?
?
?
?
? k
i
i
i
k
i
n
f
fxx
S
)(
=
? 例 5–12 考察一台机器的生产能力,利用抽样程序来检验
生产出来的产品质量,假设搜集的数据如下:
? 根据该行业通用法则:如果一个样本中的 14个数据项的方
差大于 0.005,则该机器必须关闭待修。问此时的机器是否
必须关闭?
? 解:根据已知数据,计算
? 因此,该机器工作正常。
3, 4 3 3, 4 5 3, 4 3 3, 4 8 3, 5 2 3, 5 3, 3 9
3, 4 8 3, 4 1 3, 3 8 3, 4 9 3, 4 5 3, 5 1 3, 5
459.3??n xx =
005.0002.01 )(
2
2 ??
?
???
n
xxS
? 5.3.5 变异系数( Coefficient of Variation)
? 上面介绍的各离散程度测度值都是反映数据分散
程度的绝对值,其数值的大小一方面取决于原变
量值本身水平高低的影响,也就是与变量的均值
大小有关。变量值绝对水平越高,离散程度的测
度值自然也就越大,绝对水平越低,离散程度的
测度值自然也就越小;另一方面,它们与原变量
值的计量单位相同,采用不同计量单位计量的变
量值,其离散程度的测度值也就不同。因此,对
于平均水平不同或计量单位不同的不同组别的变
量值,是不能直接用上述离散程度的测度值直接
进行比较的。为了消除变量值水平高低和计量单
位不同对离散程度测度值的影响,需要计算离散
系数。
? 离散系数通常是就标准差来计算的,因此,也称为标准差
系数,它是一组数据的标准差与其相应的均值之比,是测
度数据离散程度的相对指标,其计算公式为:
? Vσ和 Vs分别表示总体离散系数和样本离散系数。
? 离散系数要是用于对不同组别数据的离散程度进行比较,
离散系数大的说明该组数据的离散程度也就大,离散系数
小的说明该组数据的离散程度也就小。
x
S
V
X
V S ?? 或
?
?
? 例 5–13 某管理局抽查
了所属的 8家企业,其
产品销售数据如表 5–
10所示。试比较产品
销售额与销售利润的
离散程度。
企业编号 产品销售额
(万元) X
1
销售利润
(万元) X
2
1 170 8.1
2 220 12.5
3 390 18
4 430 22
5 480 26.5
6 650 40
7 950 64
8 1000 69
表 5 – 10 某管理局所属 8 家企业的产品销售数据
? 解:由于销售额与利润额的数据水平不同,
不能直接用标准差进行比较,需要计算离
散系数。由表中数据计算得
? 计算结果表明,V1<V2,说明产品销售额
的离散程度小于销售利润的离散程度。
710.0
5 1 2 5.32
09.23
)(09.23)(5 2 1 5.32
577.0
25.536
19.309
)(19.309)(25.536
222
111
????
????
VSX
VSX
万元万元
万元万元
【 基本训练 】
? 【 单项选择 】
? 1.平均指标反映了( )
? ①总体次数分布的集中趋势 ②总体分布的特征
? ③总体单位的集中趋势 ④总体次数分布的离中趋势
? 2.某单位的生产小组工人工资资料如下,90元,100元,110元,120元,128元、
148元,200元,计算结果均值为元,标准差为( )
? ① σ= 33 ② σ= 34 ③ σ= 34.23 ④ σ= 35
? 3.众数是总体中下列哪项的标志值( )
? ①位置居中 ②数值最大
? ③出现次数较多 ④出现次数最多
? 4.某工厂新工人月工资 400元,工资总额为 200000元,老工人月工资 800元,工资总
额 80000元,则平均工资为( )
? ① 600元 ② 533.33元 ③ 466.67元 ④ 500元
? 5.标志变异指标说明变量的( )
? ①变动趋势 ②集中趋势 ③离中趋势 ④一般趋势
? 6.标准差指标数值越小,则反映变量值( )
? ①越分散,平均数代表性越低 ②越集中,平均数代表性越高
? ③越分散,平均数代表性越高 ④越集中,平均数代表性越低
? 7.在抽样推断中应用比较广泛的指标是( )
? ①全距 ②平均差 ③标准差 ④标准差系数
? 【 多项选择题 】
? 1.根据标志值在总体中所处的特殊位置确定的平均指标
有( )
? ①算术平均数 ②调和平均数 ③几何平均数
? ④众数 ⑤中位数
? 2.影响加权算术平均数的因素有( )
? ①总体标志总量 ②分配数列中各组标志值
? ③各组标志值出现的次数 ④各组单位数占总体单位数比
重
? ⑤权数
? 3.标志变异指标有( )
? ①全距 ②平均差 ③标准差 ④标准差系数
⑤相关系数
? 分别计算 7,8月份平均每人日产量,并简要说
明 8月份平均每人日产量变化的原因。
7 月份 8 月份
20 以下 30 18
20 ~ 30 78 30
30 ~ 40 108 72
40 ~ 50 90 120
50 ~ 60 42 90
60 以上 12 30
合计 360 360
工人按日
产量分组
(件)
工人数(人)
某企业 360 名工人生产某种产品的资料
,统计基础,
经济管理系课题组
版权所有:马如武 王桂芳
? 第 5章 数据分布特征的描述
? 【 学习目标 】
? 本章主要介绍了数据分布特征的描述的基本理论,
包括平均指标和变异指标的基本概念、种类以及
各种计算方法,计算和应用平均指标应注意的问
题等。通过学习,使学习者能够掌握数据分布的
集中趋势和离散特征,为经济管理服务。
? 【 学习要求 】
? 通过本章的学习,要求理解并掌握平均指标和
变异指标的基本概念,熟练掌握各种计算方法,
明确计算和运用平均指标应注意的问题等等。
? 【 学习内容 】
? 统计数据分布的特征,可以从三个方面进行测度和描述:一是分布
的集中趋势,反映各数据向其中心值靠拢或聚集的程度,如算术平均
数;二是分布的离中趋势,反映各数据远离其中心值的程度,如标准
差;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分别
反映了数据分布特征的不同侧面,第一、二方面是主要的。本章重点 讨论第一、第二两方面代表值的计算方法、特点及其应用场合。
?
? 5.1 集中趋势 ——数值平均数
? 集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是
寻找数据一般水平的代表值或中心值。取得集中趋势代表值的方法通
常有两种:一是从总体各单位变量值中抽象出具有一般水平的量,这
个量不是各个单位的具体变量值,但又要反映总体各单位的一般水平,
这种平均数称为数值平均数。数值平均数有算术平均数、调和平均数、
几何平均数等形式。二是先将总体各单位的变量值按一定顺序排列,
然后取某一位置的变量值来反映总体各单位的一般水平,把这个特殊
位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、
中位数、四分位数等形式。
? 5.1.1算术平均数
? 算术平均数,是集中趋势测度中最重要的一种,
它是所有平均数中应用最广泛的平均数。
? 算术平均数 =
? 1,简单算术平均数( Simple Arithmetic Mean)
? 根据未经分组整理的原始数据计算的均值。设一
组数据为 x1,x1,… xn,则简单算术平均数的计
算公式如下:
)(
)(
变量值个数总体单位总量
变量值总量总体标志总量
n
x
n
xxxx n ?=+++= ?21
? 例 5–1 据南方人才服务中心调查,从事 IT行业的
从业人员年薪在 40000-55000元之间,表 5–1的
数据是 IT从业人员年薪的一个样本:
? 计算 IT从业人员的平均年薪。
? 根据公式计算如下:
49100 48600 49950 48800 47200 49900 51350 54600
49300 51200 51000 49400 51400 51800 49600 53400
48700 50300 49000 49800 48900 48650 51300 51900
表 5 – 1 2 4 名 IT 从业人员年薪资料表
)(58.5 0 2 1 4
24
5 1 9 0 05 3 4 0 04 9 3 0 04 9 1 0 01 元平均年薪 ??????? ?? ?
n
x
n
i
i
x
? 2,加权算术平均数( Weighted Arithmetic
Mean)
? 根据分组整理的数据计算的算术平均数。
其计算公式为:
? ( 5–2)
? 式中,f 代表各组变量值出现的频数。
? 例 5–2 以表 5–2为例,计算人均日产量。计
算表见表 5–2。
f
xf
fff
fxfxfxx
n
nn
?
??
???
???
?
?
21
2211=
按零件数分
组
组中值 x 频数 f xf
105 ~ 110 107.5 3 322.5
110 ~ 115 112.5 5 562.5
115 ~ 120 117.5 8 940
120 ~ 125 122.5 14 1715
125 ~ 130 127.5 10 1275
130 ~ 135 132.5 6 795
135 ~ 140 137.5 4 550
合 计 –– 50 6160
表 5 – 2 某企业 50 名工人加工零件均值计算表
平均日产量=
(件)== 2.123
50
6 1 6 0
f
xf
?
?
? 3,算术平均数性质
? 算术平均数在统计学中具有重要的地位,它是进行统计
分析和统计推断的基础。首先,从统计思想上看,它是一
组数据的重心所在,是数据误差相互抵消后的必然性结果
? 其次,它具有下面一些重要的数学性质,这些数学性质在
实际工作中有着广泛的应用(如在相关性分析和方差分析
及建立回归方程中),同时也体现了算术平均数的统计思
想。
? 1.各变量值与其算术平均数的离差之和等于零,即
? ∑ = 0;
? 2.各变量值与其算术平均数的离差平方和最小,即
? ∑ =min。
fxx )( ?
fxx 2)( ?
? 4,利用计算工具求算术平均数
? ( 1)利用计算器计算
? 对于未整理的原始数据或已整理分组的数列,均可利用计算器的统计功能计算算术平均数。需要特别注意的是,
当资料为变量数列时,一定要遵循以下输入顺序:先输入变量值,然后输入乘号键,接下来输入频数值,绝对不能
颠倒次序。
? ( 2)利用计算机计算
? 运用计算机技术,不但能使人们从大量繁杂的手工处理数据的工作中解脱出来,而且还可能大大提高对统计数据
的利用率。虽然功能强大的统计软件包在一般人使用的电脑上没有安装,但使用,office”软件的用户超过 90%,而
用,office”软件中的,excel”组件足可以及时、准确、完整地将有关统计常用的基本统计量(如本章的算术平均数)
等迅速提供给人们。
? 下面举一个简单的例子说明利用,excel”计算算术平均数的步骤。如,计算某班上学期期末考试各科平均成绩。
? 方法一:
? 第一步 打开,excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录
一名学生的各科成绩);
? 第二步 选择(单击)“工具”下拉菜单;
? 第三步 选择(单击)“数据分析”选项;
? 第四步 从弹出的“分析工具”中选择(单击)“描述统计”并单击“确定”;
? 第五步 在对话框中的“输入区域”框内键入要计算的单元格区域(如果包括字段行,则须选中“标志位于第一
行”复选框。若分组方式为逐行,则该复选框选定标志位于第一列);在“输出选项”中选择输出区域;选择“汇
总统计”(该选项给出全部描述统计量);单击“确定”。
? 方法二:
? 第一步 打开,excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录
一名学生的各科成绩);
? 第二步 在适当的单元格内输入计算公式(以每行记录一名学生的各科成绩为例,假设第一行依次为姓名及各考
试科目名称,最后一名学生第一科的成绩所在单元格为 B45,则可在 B46单元格输入计算公式“,average( b2:
b45)”),然后回车;或者在适当的单元格内插入函数(选择“插入”下拉菜单,然后选择“函数”,接下来从
弹出的对话框左边的函数类别中选择“统计”,再从对话框右边的函数名中选择,Average”,最后单击“确定”);
? 第三步 选定第二步计算结果所在单元格,复制其他考试科目的平均成绩。
? 5.1.2 调和平均数( Harmonic Mean)
? 1,调和平均数的计算方法
? 与算术平均数类似,调和平均数也有简单的和加
权的两种形式,其计算公式分别为:
? ( 5–3)
? ( 5–4)
? 由于调和平均数也可以看成是变量 x的倒数的算术
平均数的倒数,故有时也被称作“倒数平均数”。
?
?
?
???
? n
i in x
n
xxx
nH
121
1111 ?
?
?
?
??
???
???
?
n
i i
i
n
i
i
n
n
n
x
m
m
x
m
x
m
x
m
mmm
H
1
1
2
2
1
1
21
?
?
? 例 5–4 假定有 A,B两家公司员工的月工资资料
如表 5–4的前三列。试分别计算其平均工资。 A 公司 B 公司 A 公司 B 公司
800 48000 40000 60 50
1000 70000 40000 70 40
1600 32000 40000 20 25
合计 150000 120000 150 115
月工资 x ( 元 )
工资总额 m( 元 ) 员工人数 f= m / x ( 人 )
表 5 – 4 两公司员工工资情况表
)(1000150/1 5 0 0 0 0
1600
3 2 0 0 0
1000
7 0 0 0 0
800
4 8 0 0 0
3 2 0 0 07 0 0 0 04 8 0 0 0
3
1
3
1
元??
??
??
??
?
?
?
?
i i
i
i
i
A
x
m
m
H
1 6 0 0
4 0 0 0 0
1 0 0 0
4 0 0 0 0
800
4 0 0 0
4 0 0 0 04 0 0 0 04 0 0 0 0
3
1
3
1
??
????
?
?
?
?
i i
i
i
i
B
x
m
m
H
(元)48.10431151 2 0 0 0 0 ??
? 2,由相对数或平均数计算平均
数
? 例 5–5 设有某行业 150个企业
的有关产值和利润资料如表 5–5
企业数 ( 个 ) 实际产值 ( 万
元 )
企业数 ( 个 ) 实际利润 ( 万
元 )
5 月 10 日 30 5700 50 710
10 月 20 日 70 20500 80 3514
20 - 30 50 22500 20 2250
合 计 150 48700 150 6474
产值利润率
( % )
一 季 度 二 季 度
表 5 – 5 某行业产值和利润情况表
%1 0 0?? 实际产值实际利润产值利润率
%74.18
4 8 7 0 0
5.9 1 2 7
2 2 5 0 02 0 5 0 05 7 0 0
2 2 5 0 025.02 0 5 0 015.05 7 0 00 7 5.0
??
??
??????
?
??
f
xf
产值利润率
一季度平均
%45.15
3.4 1 8 9 3
6 4 7 4
25.0
2 2 5 0
15.0
3 5 1 4
0 7 5.0
7 1 0
2 2 5 03 5 1 47 1 0
??
??
??
?
?
?
?
x
m
m
产值利润率
二季度平均
? 3,调和平均数特点
? ( 1)调和平均数易受极端值的影响,且受
极小值的影响比受极大值的影响更大。
? ( 2)只要有一个变量值为零,就不能计算
调和平均数。
? ( 3)当组距数列有开口组时,其组中值即
使按相邻组距计算了,假定性也很大,这
时,调和平均数的代表性就很不可靠。
? ( 4)调和平均数应用的范围较小。
? 5.1.3 几何平均数( Geometric Mean)
? 几何平均数也称几何均值,它是 n个变量值乘积的
n次方根。根据统计资料的不同,几何平均数也有
简单几何平均数和加权几何平均数之分。
? 1,简单几何平均数( Simple Geometric Mean)
? 直接将 n项变量连乘,然后对其连乘积开 n次方根
所得的平均数即为简单几何平均数。它是几何平
均数的常用形式。计算公式为:
?
? ( 5–5)
? 式中,G代表几何平均数,代表连乘符号
n
n
i
in
n xxxxxG ?
?
????
1
321 ??
? 例 5–6 某流水生产线有前后衔接的五道工
序。某日各工序产品的合格率分别为 95%、
92%,90%,85%,80%,整个流水生产
线产品的平均合格率为:
%24.885 3 4 9.0
80.085.090.092.095.0
5
5
??
?????G
? 2,加权几何平均数( Weighted Geometric
Mean)
? 与算术平均数一样,当资料中的某些变量
值重复出现时,相应地,简单几何平均数
就变成了加权几何平均数。计算公式为:
? ( 5–6)
? 式中,fi代表各个变量值出现的次数。
f
n
i
f
i
f f
n
fff
G
in xxxxxx ?
?
? ?????
1
321
321 ?
? 例 5–7 某工商银行某项投
资年利率是按复利计算的。
20年的利率分配如表 5–6,
计算 20年的平均年利率。
? 按公式计算 20年的平均年
利率:
? 即 20年的平均年利率为
114.14%-1=14.14%
年限 年利率
( % )
本利率
( % ) x
i
年数(个)
f
i
第 1 年 5 105 1
第 2 年至第 4
年
8 108 3
第 5 年至第 15
年
15 115 11
第 16 年至第
20 年
18 118 5
合 计 — — 20
表 5 – 6 投资年利率分组表
%14.1 1 418.115.108.105.120 51131 ?? ???Gx
? 3,几何平均数特点
? ( 1)几何平均数受极端值的影响较算术平
均数小。
? ( 2)如果变量值有负值,计算出的几何平
均数就会成为负数或虚数。
? ( 3)它仅适用于具有等比或近似等比关系
的数据。
? ( 4)几何平均数的对数是各变量值对数的
算术平均数。
? 5.2 集中趋势 ——位置平均数
? 位置平均数,就是根据总体中处于特殊位
置上的个别单位或部分单位的标志值来确
定的代表值,它对于整个总体来说,具有
非常直观的代表性,因此,常用来反映分
布的集中趋势。常用的众数、中位数。
? 5.2.1 众数( Mode)
? 1,众数的含义
? 某制鞋厂要了解消费者最需要哪种型号
的男皮鞋,调查了某百货商场某季度男
皮鞋的销售情况,得到资料如表 5–7。
? 从表 5–7可以看到,25.5厘米的鞋号销售
量最多,如果我们计算算术平均数,则
平均号码为 25,65厘米,而这个号码显然
是没有实际意义的,而直接用 25.5厘米
作为顾客对男皮鞋所需尺寸的集中趋势
既便捷又符合实际。
? 统计上把这种在一组数据中出现次数最
多的变量值叫做众数。用 Mo表示。它主
要用于定类(品质标志)数据的集中趋
势,当然也适用于作为定序(品质标志)
数据以及定距和定比(数量标志)数据
集中趋势的测度值。上面的例子中,鞋
号 25,5厘米就是众数。
男皮鞋号码 /
厘米
销售量 / 双
24 12
24.5 84
25 118
25.5 541
26 320
26.5 104
27 52
合计 1200
某商场某季度男皮鞋销售情况
? 2,众数计算
? 式中,L—— 众数所在组下限;
? U—— 众数所在组上限;
? Δ1——众数所在组次数与其下限的邻组次数之差;
? Δ2——众数所在组次数与其上限的邻组次数之差;
? d——众数所在组组距。
dLM ???? ???
21
1
0
dUM ???? ???
21
2
0
? 例 5–8 根据表 5–2的数据,计算 50名工人日加工
零件数的众数。
? 解:从表 5–2中的数据可以看出,最大的频数值
是 14,即众数组为 120~125这一组,根据公式
( 5–7)得 50名工人日加工零件的众数为:
)(1235
)1014()814(
814120
0 件?????
???M
)(1235
)1014()814(
1014125
0 件?????
???M
? 3,众数特点
? ( 1)众数是以它在所有标志值中所处的位置确定的全体
单位标志值的代表值,它不受分布数列的极大或极小值的
影响,从而增强了众数对分布数列的代表性。
? ( 2)当分组数列没有任何一组的次数占多数,也即分布
数列中没有明显的集中趋势,而是近似于均匀分布时,则
该次数分配数列无众数。若将无众数的分布数列重新分组
或各组频数依序合并,又会使分配数列再现出明显的集中
趋势。
? ( 3)如果与众数组相比邻的上下两组的次数相等,则众
数组的组中值就是众数值;如果与众数组比邻的上一组的
次数较多,而下一组的次数较少,则众数在众数组内会偏
向该组下限;如果与众数组比邻的上一组的次数较少,而
下一组的次数较多,则众数在众数组内会偏向该组上限。
? ( 4)缺乏敏感性。这是由于众数的计算只利用了众数组
的数据信息,不象数值平均数那样利用了全部数据信息。
? 5.2..2 中位数( Median)
? 1,中位数的含义
? 中位数是将数据按大小顺序排列起来,形
成一个数列,居于数列中间位置的那个数
据就是中位数。中位数用 Me表示。
? 2,中位数的计算
? 确定中位数,必须将总体各单位的标志值
按大小顺序排列,最好是编制出变量数列 。
? 有两种情况:
? ( 1)对于未分组的原始资料,首先必须将标志值
按大小排序。设排序的结果为:
? 则中位数就可以按
? 右面的方式确定:
? 例如,根据例 5–2的数据,计算 50名工人日加工
零件数的中位数。中位数的位置在( 50+1) /2 =
25.5,中位数在第 25个数值( 123)和第 26个数
值( 123)之间,即 Me = (123+123)/2=123(件 )。
nxxxx ???? ?321
?
?
?
?
?
?
?
?
?
?
?
?
?
为偶数)(
为奇数)(
n
xx
nx
M
nn
n
e
2
1
22
2
1
? ( 2)由分组资料确定中位数
? 由组距数列确定中位数,应先按 的公式求出中位数所在组
的位置,然后再按下限公式或上限公式确定中位数。
? 式中,Me——中位数;
? L——中位数所在组下限;
? U——中位数所在组上限;
? fm——为中位数所在组的次数;
? ——总次数;
? d——中位数所在组的组距;
? Sm–1——中位数所在组以下的累计次数;
? Sm+1——中位数所在组以上的累计次数。
d
f
Sf
UM
d
f
Sf
LM
m
m
e
m
m
e
?
?
??
?
?
??
?
?
?
?
1
1
)2/(
)2/(
:
:
上限公式
下限公式
2?
f
? 由表 5–8可知,中位数的
位置 = 50/2 = 25,即中位
数在 120~ 125这一组,L
= 120,Sm–1 = 16,
U=125,Sm+1 =20,fm
= 14,d = 5,根据中位数
公式得:
? 或
按零件数分
组 ( 个 )
频数 ( 人 ) 向上累计
( 人 )
向下累计
( 人 )
105 ~ 110 3 3 50
110 ~ 115 5 8 47
115 ~ 120 8 16 42
120 ~ 125 14 30 34
125 ~ 130 10 40 20
130 ~ 135 6 46 10
135 ~ 140 4 50 4
某企业 50 名工人加工零件中位数计算表
)(21.123514
16250
120 件??
?
??eM
)(21.1235
14
20
2
50
125 件??
?
??eM
? 3,中位数特点
? ( 1)中位数是以它在所有标志值中所处的
位置确定的全体单位标志值的代表值,不
受分布数列的极大或极小值影响,从而在
一定程度上提高了中位数对分布数列的代
表性。
? ( 2)有些离散型变量的单项式数列,当次
数分布偏态时,中位数的代表性会受到影
响。
? ( 3)缺乏敏感性。
? (二) 的关系x em 0m
x em 0m xem0m0e mmx ??
对称分布 左偏分布 右偏分布
返回
? 5.3 离中趋势
? 5.3.1 离中趋势的测定 ——变异指标
? 变异指标是反映总体各单位标志值的差别大小程度的综合
指标,又称标志变动度。平均指标反映总体一般数量水平
的同时,掩盖了总体各单位标志值的数量差异。变异指标
弥补了这方面的不足,它综合反映了总体各单位标志值的
差异性,从另一方面说明了总体的数量特征。平均指标说
明总体各单位标志值的集中趋势,而变异指标则说明标志
值的分散程度或离中趋势。
? 变异指标是衡量平均指标代表性的尺度。一般来讲,数据
分布越分散,变异指标越大,平均指标的代表性越小;数
据分布越集中,变异指标越小,平均指标的代表性越大。
常用的变异指标有:全距、平均差、方差和标准差、变异
系数。
? 5.3.2 全距( Range)
? 全距也称为极差,是指总体各单位的两个极端标志值之差,
即:
? R=最大标志值-最小标志值
? 因此,全距( R)可反映总体标志值的差异范围。
? 例 5–10 有两个学习小组的统计学开始成绩分别为:
? 第一组,60,70,80,90,100
? 第二组,78,79,80,81,82
? 很明显,两个小组的考试成绩平均分都是 80分,但是哪一
组的分数比较集中呢?
? 如果用全距指标来衡量,则有
? R甲= 100- 60= 40(分)
? R乙= 82- 78= 4(分)
? 这说明第一组资料的标志变动度或离中趋势远大于第二组
资料的标志变动度。
? 根据组距计算极差,是测定标志变动度的
一种简单方法,但受极端值的影响,因而
它往往不能充分反映社会经济现象的离散
程度。
? 在实际工作中,全距常用来检查产品质量
的稳定性和进行质量控制。在正常生产条
件下,全距在一定范围内波动,若全距超
过给定的范围,就说明有异常情况出现。
因此,利用全距有助于及时发现问题,以
便采取措施,保证产品质量
? 5.3.3 平均差( Mean Deviation)
? 平均差是总体各单位标志对其算术平均数
的离差绝对值的算术平均数。它综合反映
了总体各单位标志值的变动程度。平均差
越大,则表示标志变动度越大,反之则表
示标志变动度越小。
? 在资料未分组的情况下,平均差的计算公
式为
? A.D=
N
xx? ?
? 在资料已分组的情况下,要用加权平均差
公式:
? A.D=
?
? ?
f
fxx
? 5.3.4 方差( Variance)与标准差( Standard
Deviation)
? 方差和标准差是测度数据变异程度的最重要、最
常用的指标。方差是各个数据与其算术平均数的
离差平方的平均数,通常以 σ2表示。方差的计量
单位和量纲不便于从经济意义上进行解释,所以
实际统计工作中多用方差的算术平方根 –––标准
差来测度统计数据的差异程度。标准差又称均方
差,一般用 σ表示。方差和标准差的计算也分为简
单平均法和加权平均法,另外,对于总体数据和
样本数据,公式略有不同。
? 1,总体方差和标准差
? 设总体方差为,对于未经分组整理的原
始数据,方差的计算公式为:
?
? ( 5–12)
? 对于分组数据,方差的计算公式为,N
XX
N
i
i?
?
?
1
2
2
)(
=?
?
?
?
?
?
K
i
i
i
K
i
i
f
fXX
1
1
2
2
)(
=?
? 方差的平方根即为标准差,其相应的计算
公式为:
? 未分组数据,( 5–14)
? 分组数据:
N
XX
N
i
i?
?
?
1
2)(
=?
?
?
?
?
?
K
i
i
i
K
i
i
f
fXX
1
1
2)(
=?
? 2,样本方差和标准差
? 样本方差与总体方差在计算上的区别是:
总体方差是用数据个数或总频数去除离差
平方和,而样本方差则是用样本数据个数
或总频数减 1去除离差平方和,其中样本数
据个数减 1即 n- 1称为自由度。设样本方差
为,根据未分组数据和分组数据计算样
本方差的公式分别为:
21?nS
? 未分组数据,( 5–16)
? 分组数据,( 5–17)
? 未分组数据,( 5–18)
? 分组数据,( 5–19)
1
1
2
2
1 ?
??
?
? n
xx
S
n
i
i
n
)(
=
?
?
?
?
?
?
?
k
i
i
i
k
i
i
n
f
fxx
S
1
1
2
2
1
1
)(
=
1
1
2
1 ?
??
?
? n
xx
S
n
i
n
)(
=
1
1
1
2
1
?
?
?
?
?
?
? k
i
i
i
k
i
n
f
fxx
S
)(
=
? 例 5–12 考察一台机器的生产能力,利用抽样程序来检验
生产出来的产品质量,假设搜集的数据如下:
? 根据该行业通用法则:如果一个样本中的 14个数据项的方
差大于 0.005,则该机器必须关闭待修。问此时的机器是否
必须关闭?
? 解:根据已知数据,计算
? 因此,该机器工作正常。
3, 4 3 3, 4 5 3, 4 3 3, 4 8 3, 5 2 3, 5 3, 3 9
3, 4 8 3, 4 1 3, 3 8 3, 4 9 3, 4 5 3, 5 1 3, 5
459.3??n xx =
005.0002.01 )(
2
2 ??
?
???
n
xxS
? 5.3.5 变异系数( Coefficient of Variation)
? 上面介绍的各离散程度测度值都是反映数据分散
程度的绝对值,其数值的大小一方面取决于原变
量值本身水平高低的影响,也就是与变量的均值
大小有关。变量值绝对水平越高,离散程度的测
度值自然也就越大,绝对水平越低,离散程度的
测度值自然也就越小;另一方面,它们与原变量
值的计量单位相同,采用不同计量单位计量的变
量值,其离散程度的测度值也就不同。因此,对
于平均水平不同或计量单位不同的不同组别的变
量值,是不能直接用上述离散程度的测度值直接
进行比较的。为了消除变量值水平高低和计量单
位不同对离散程度测度值的影响,需要计算离散
系数。
? 离散系数通常是就标准差来计算的,因此,也称为标准差
系数,它是一组数据的标准差与其相应的均值之比,是测
度数据离散程度的相对指标,其计算公式为:
? Vσ和 Vs分别表示总体离散系数和样本离散系数。
? 离散系数要是用于对不同组别数据的离散程度进行比较,
离散系数大的说明该组数据的离散程度也就大,离散系数
小的说明该组数据的离散程度也就小。
x
S
V
X
V S ?? 或
?
?
? 例 5–13 某管理局抽查
了所属的 8家企业,其
产品销售数据如表 5–
10所示。试比较产品
销售额与销售利润的
离散程度。
企业编号 产品销售额
(万元) X
1
销售利润
(万元) X
2
1 170 8.1
2 220 12.5
3 390 18
4 430 22
5 480 26.5
6 650 40
7 950 64
8 1000 69
表 5 – 10 某管理局所属 8 家企业的产品销售数据
? 解:由于销售额与利润额的数据水平不同,
不能直接用标准差进行比较,需要计算离
散系数。由表中数据计算得
? 计算结果表明,V1<V2,说明产品销售额
的离散程度小于销售利润的离散程度。
710.0
5 1 2 5.32
09.23
)(09.23)(5 2 1 5.32
577.0
25.536
19.309
)(19.309)(25.536
222
111
????
????
VSX
VSX
万元万元
万元万元
【 基本训练 】
? 【 单项选择 】
? 1.平均指标反映了( )
? ①总体次数分布的集中趋势 ②总体分布的特征
? ③总体单位的集中趋势 ④总体次数分布的离中趋势
? 2.某单位的生产小组工人工资资料如下,90元,100元,110元,120元,128元、
148元,200元,计算结果均值为元,标准差为( )
? ① σ= 33 ② σ= 34 ③ σ= 34.23 ④ σ= 35
? 3.众数是总体中下列哪项的标志值( )
? ①位置居中 ②数值最大
? ③出现次数较多 ④出现次数最多
? 4.某工厂新工人月工资 400元,工资总额为 200000元,老工人月工资 800元,工资总
额 80000元,则平均工资为( )
? ① 600元 ② 533.33元 ③ 466.67元 ④ 500元
? 5.标志变异指标说明变量的( )
? ①变动趋势 ②集中趋势 ③离中趋势 ④一般趋势
? 6.标准差指标数值越小,则反映变量值( )
? ①越分散,平均数代表性越低 ②越集中,平均数代表性越高
? ③越分散,平均数代表性越高 ④越集中,平均数代表性越低
? 7.在抽样推断中应用比较广泛的指标是( )
? ①全距 ②平均差 ③标准差 ④标准差系数
? 【 多项选择题 】
? 1.根据标志值在总体中所处的特殊位置确定的平均指标
有( )
? ①算术平均数 ②调和平均数 ③几何平均数
? ④众数 ⑤中位数
? 2.影响加权算术平均数的因素有( )
? ①总体标志总量 ②分配数列中各组标志值
? ③各组标志值出现的次数 ④各组单位数占总体单位数比
重
? ⑤权数
? 3.标志变异指标有( )
? ①全距 ②平均差 ③标准差 ④标准差系数
⑤相关系数
? 分别计算 7,8月份平均每人日产量,并简要说
明 8月份平均每人日产量变化的原因。
7 月份 8 月份
20 以下 30 18
20 ~ 30 78 30
30 ~ 40 108 72
40 ~ 50 90 120
50 ~ 60 42 90
60 以上 12 30
合计 360 360
工人按日
产量分组
(件)
工人数(人)
某企业 360 名工人生产某种产品的资料