第5章 数据分布特征的描述
【学习目标】
本章主要介绍了数据分布特征的描述的基本理论,包括平均指标和变异指标的基本概念、种类以及各种计算方法,计算和应用平均指标应注意的问题等。通过学习,使学习者能够掌握数据分布的集中趋势和离散特征,为经济管理服务。
【学习要求】
通过本章的学习,要求理解并掌握平均指标和变异指标的基本概念,熟练掌握各种计算方法,明确计算和运用平均指标应注意的问题等等。
【学习内容】
统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度,如算术平均数;二是分布的离中趋势,反映各数据远离其中心值的程度,如标准差;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面,第一、二方面是主要的。本章重点讨论第一、第二两方面代表值的计算方法、特点及其应用场合。
5.1 集中趋势——数值平均数
集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。取得集中趋势代表值的方法通常有两种:一是从总体各单位变量值中抽象出具有一般水平的量,这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水平,这种平均数称为数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。二是先将总体各单位的变量值按一定顺序排列,然后取某一位置的变量值来反映总体各单位的一般水平,把这个特殊位置上的数值看作是平均数,称作位置平均数。位置平均数有众数、中位数、四分位数等形式。
5.1.1算术平均数
算术平均数,是集中趋势测度中最重要的一种,它是所有平均数中应用最广泛的平均数。因为它的计算方法是与许多社会经济现象中个别现象与总体现象之间存在的客观数量关系相符合的。
例如,企业职工的工资总额就是各个职工工资额的总和,职工的平均工资必等于职工的工资总额与职工总人数之比。所以,算术平均数的基本公式应该是:
算术平均数=
算术平均数一般就称为平均数(mean)。其定义是:观察值的总和除以观察值个数的商。在已知研究对象的总体标志总量及总体单位总量时,可直接利用上式计算。例如,某企业某月的工资总额为680000元,职工总数为1000人,则:
该企业职工月平均工资==680(元)
利用上式计算时,要求各变量值必须是同质的,分子与分母必须属于同一总体,即公式的分子是分母具有的标志值,分母是分子的承担者。在实际工作中,就手工计算而言,由于所掌握的统计资料的不同,利用上述公式进行计算时,可分为简单算术平均数和加权算术平均数两种。
1. 简单算术平均数(Simple Arithmetic Mean)
根据未经分组整理的原始数据计算的均值。设一组数据为x1,x1,…xn,则简单算术平均数的计算公式如下:
(5–1)
例5–1 据南方人才服务中心调查,从事IT行业的从业人员年薪在40000-55000元之间,表5–1的数据是IT从业人员年薪的一个样本:
表5–1 24名IT从业人员年薪资料表
49100
49300
48700
48600
51200
50300
49950
51000
49000
48800
49400
49800
47200
51400
48900
49900
51800
48650
51350
49600
51300
54600
53400
51900
计算IT从业人员的平均年薪。
根据公式计算如下:
2. 加权算术平均数(Weighted Arithmetic Mean)
根据分组整理的数据计算的算术平均数。其计算公式为:
(5–2)
式中:f代表各组变量值出现的频数。
例5–2 以表5–2为例,计算人均日产量。计算表见表5–2。
解:
表5–2 某企业50名工人加工零件均值计算表
按零件数分组
组中值x
频数f
xf
105~110
110~115
115~120
120~125
125~130
130~135
135~140
107.5
112.5
117.5
122.5
127.5
132.5
137.5
3
5
8
14
10
6
4
322.5
562.5
940.0
1715.0
1275.0
795.0
550.0
合 计
––
50
6160.0
平均日产量=
这种根据已分组整理的数据计算的算术平均数就称为加权算术平均数。这时,算术平均数的大小,不仅取决于研究对象的变量值,而且受各变量值重复出现的频数(f)或频率(f/∑f)大小的影响,如果某一组的频数或频率较大,说明该组的数据较多,那么该组数据的大小对算术平均数的影响就大,反之则小。可见各组频数的多少(或频率的高低)对平均的结果起着一种权衡轻重的作用,因而这一衡量变量值相对重要性的数值称为权数。这里所谓权数的大小,并不是以权数本身值的大小而言的,而是指各组单位数占总体单位数的比重,即权数系数(f/∑f)。权数系数亦称为频率,是一种结构相对数。
当然,利用组中值作为本组平均值计算算术平均数,是在各组内的标志值分布均匀的假定下。计算结果与未分组数列的相应结果可能会有一些偏差,应用时应予以注意。在统计分析过程中,如果搜集到的是经过初步整理的次级数据,或数据要求不很精确的原始数据资料可用此法计算均值。如果要求结果十分精确,那么需用原始数据的全部实际信息,如果计算量很大,可借助计算机的统计功能。
如果是计算相对数的平均数,则应符合所求的相对数本身的公式,将分子视为总体标志总量,分母视为总体单位总量。
例5–3 某季度某工业公司18个工业企业产值计划完成程序资料如表5–3,计算平均产值计划完成程度。
表5–3 某工业公司产值完成情况表
产值计划完成程度(%)
组中值
(%)
x
企业数(个)
计划产值
(万元)
f
实际产值
(万元)
xf
80~90
90~100
100~110
110~120
85
95
105
115
2
3
10
3
800
2500
17200
4400
680
2375
18060
5060
合计
-
18
24900
26175
计划完成相对数的计算公式是实际完成数与计划任务数之比,因此,平均计划完成程度的计算只能是所有企业的实际完成数与其计划任务数之比,不能把各个企业的计划完成百分数简单平均。
3. 算术平均数性质
算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。首先,从统计思想上看,它是一组数据的重心所在,是数据误差相互抵消后的必然性结果。比如对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用算术平均数作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。其次,它具有下面一些重要的数学性质,这些数学性质在实际工作中有着广泛的应用(如在相关性分析和方差分析及建立回归方程中),同时也体现了算术平均数的统计思想。
1.各变量值与其算术平均数的离差之和等于零,即∑=0;
2.各变量值与其算术平均数的离差平方和最小,即∑=min。
4. 利用计算工具求算术平均数
(1).利用计算器计算
对于未整理的原始数据或已整理分组的数列,均可利用计算器的统计功能计算算术平均数。需要特别注意的是,当资料为变量数列时,一定要遵循以下输入顺序:先输入变量值,然后输入乘号键,接下来输入频数值,绝对不能颠倒次序。
(2).利用计算机计算
运用计算机技术,不但能使人们从大量繁杂的手工处理数据的工作中解脱出来,而且还可能大大提高对统计数据的利用率。虽然功能强大的统计软件包在一般人使用的电脑上没有安装,但使用“office”软件的用户超过90%,而用“office”软件中的“excel”组件足可以及时、准确、完整地将有关统计常用的基本统计量(如本章的算术平均数)等迅速提供给人们。
下面举一个简单的例子说明利用“excel”计算算术平均数的步骤。如,计算某班上学期期末考试各科平均成绩。
方法一:
第一步 打开“excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录一名学生的各科成绩);
第二步 选择(单击)“工具”下拉菜单;
第三步 选择(单击)“数据分析”选项;
第四步 从弹出的“分析工具”中选择(单击)“描述统计”并单击“确定”;
第五步 在对话框中的“输入区域”框内键入要计算的单元格区域(如果包括字段行,则须选中“标志位于第一行”复选框。若分组方式为逐行,则该复选框选定标志位于第一列);在“输出选项”中选择输出区域;选择“汇总统计”(该选项给出全部描述统计量);单击“确定”。
方法二:
第一步 打开“excel”,输入全班每位同学各科考试成绩(一般以每行记录一名学生的各科成绩,也可以每列记录一名学生的各科成绩);
第二步 在适当的单元格内输入计算公式(以每行记录一名学生的各科成绩为例,假设第一行依次为姓名及各考试科目名称,最后一名学生第一科的成绩所在单元格为B45,则可在B46单元格输入计算公式“:average(b2:b45)”),然后回车;或者在适当的单元格内插入函数(选择“插入”下拉菜单,然后选择“函数”,接下来从弹出的对话框左边的函数类别中选择“统计”,再从对话框右边的函数名中选择“Average”,最后单击“确定”);
第三步 选定第二步计算结果所在单元格,复制其他考试科目的平均成绩。
5.1.2 调和平均数(Harmonic Mean)
1. 调和平均数的计算方法
与算术平均数类似,调和平均数也有简单的和加权的两种形式,其计算公式分别为:
(5–3)
(5–4)
由于调和平均数也可以看成是变量x的倒数的算术平均数的倒数,故有时也被称作“倒数平均数”。
例5–4 假定有A、B两家公司员工的月工资资料如表5–4的前三列。试分别计算其平均工资。
表5–4 两公司员工工资情况表
月工资x (元)
工资总额m(元)
员工人数f=m/x(人)
A公司
B公司
A公司
B公司
800
1000
1600
合计
48000
70000
32000
150000
40000
40000
40000
120000
60
70
20
150
50
40
25
115
在这里,平均工资作为“单位标志平均数”仍然必须是标志总量(工资总额)与单位总数(员工总数)之比。依据给出的月工资水平和工资总额的分组资料,可以首先用前者来除后者,得到各组的员工人数,进而加总得到全公司的员工总数(表中后两列),这样就很容易计算出两个公司各自的平均工资。将这些计算过程归纳起来,就是运用了调和平均数的公式。
现在,我们计算A公司的平均工资,得到:
对于B公司,固然也可以采用加权调和平均数公式来计算其平均工资:
然而在这里,由于各组的权数(工资总额)相同,实际上并没有真正起到加权的作用。我们采用简单调和平均数的公式来计算,可以得到完全相同的结果,而计算过程却大大简化了:
2. 由相对数或平均数计算平均数
例5–5 设有某行业150个企业的有关产值和利润资料如表5–5。
表5–5 某行业产值和利润情况表
产值利润率(%)
一 季 度
二 季 度
企业数(个)
实际产值(万元)
企业数(个)
实际利润(万元)
5-10
10-20
20-30
30
70
50
5700
20500
22500
50
80
20
710
3514
2250
合 计
150
48700
150
6474
表中给出的是按产值利润率分组的企业个数、实际产值和实际利润资料。应该注意,产值利润是一个相对指标,而不是平均指标。为了计算全行业的平均产值利润率,必须以产值利润率的基本公式为依据:
并选择适当的权数资料,适当的平均数形式,对各组企业的产值利润率进行加权平均。容易看出,计算第一季度的平均产值利润率,应该采用实际产值加权,进行算术平均,即有:
而计算第二季度的平均产值利润率,则应该采用实际利润加权,进行调和平均,即有:
由上例可见,对于同一问题的研究,算术平均数和调和平均数的实际意义是相同的,计算公式也可以相互推算,采用哪一种方法完全取决于所掌握的实际资料。一般的做法是,如果掌握的是基本公式中的分母资料,则采用算术平均数,如果掌握的是基本公式中的分子资料,则采用调和平均数的计算公式。
3. 调和平均数特点
(1)调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。
(2)只要有一个变量值为零,就不能计算调和平均数。
(3)当组距数列有开口组时,其组中值即使按相邻组距计算了,假定性也很大,这时,调和平均数的代表性就很不可靠。
(4)调和平均数应用的范围较小。
5.1.3 几何平均数(Geometric Mean)
几何平均数也称几何均值,它是n个变量值乘积的n次方根。根据统计资料的不同,几何平均数也有简单几何平均数和加权几何平均数之分。
1. 简单几何平均数(Simple Geometric Mean)
直接将n项变量连乘,然后对其连乘积开n次方根所得的平均数即为简单几何平均数。它是几何平均数的常用形式。计算公式为:
(5–5)
式中:G代表几何平均数,代表连乘符号
例5–6 某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95%、92%、90%、85%、80%,整个流水生产线产品的平均合格率为:
2. 加权几何平均数(Weighted Geometric Mean)
与算术平均数一样,当资料中的某些变量值重复出现时,相应地,简单几何平均数就变成了加权几何平均数。计算公式为:
(5–6)
式中:fi代表各个变量值出现的次数。
例5–7 某工商银行某项投资年利率是按复利计算的。20年的利率分配如表5–6,计算20年的平均年利率。
表5–6 投资年利率分组表
年限
年利率(%)
本利率(%)xi
年数(个)fi
第1年
5
105
1
第2年至第4年
8
108
3
第5年至第15年
15
115
11
第16年至第20年
18
118
5
合 计
—
—
20
按公式计算20年的平均年利率:
即20年的平均年利率为114.14%-1=14.14%
3. 几何平均数特点
(1)几何平均数受极端值的影响较算术平均数小。
(2)如果变量值有负值,计算出的几何平均数就会成为负数或虚数。
(3)它仅适用于具有等比或近似等比关系的数据。
(4)几何平均数的对数是各变量值对数的算术平均数。
5.2 集中趋势——位置平均数
位置平均数,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。常用的众数、中位数。
5.2.1 众数(Mode)
1. 众数的含义
某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男皮鞋的销售情况,得到资料如表5–7。
表5–7 某商场某季度男皮鞋销售情况
男皮鞋号码/厘米
销售量/双
24.0
12
24.5
84
25.0
118
25.5
541
26.0
320
26.5
104
27.0
52
合计
1200
从表5–7可以看到,25.5厘米的鞋号销售量最多,如果我们计算算术平均数,则平均号码为25. 65厘米,而这个号码显然是没有实际意义的,而直接用25.5厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符合实际。
统计上把这种在一组数据中出现次数最多的变量值叫做众数。用Mo表示。它主要用于定类(品质标志)数据的集中趋势,当然也适用于作为定序(品质标志)数据以及定距和定比(数量标志)数据集中趋势的测度值。上面的例子中,鞋号25. 5厘米就是众数。
2. 众数计算
由品质数列和单项式变量数列确定众数比较容易,哪个变量值出现的次数最多,它就是众数,如上面的两个例子。
若所掌握的资料是组距式数列,则只能按一定的方法来推算众数的近似值。计算公式为:
(5–7)
式中: L——众数所在组下限;
U——众数所在组上限;
Δ1——众数所在组次数与其下限的邻组次数之差;
Δ2——众数所在组次数与其上限的邻组次数之差;
d——众数所在组组距。
例5–8 根据表5–2的数据,计算50名工人日加工零件数的众数。
解:从表5–2中的数据可以看出,最大的频数值是14,即众数组为120~125这一组,根据公式(5–7)得50名工人日加工零件的众数为:
或:
众数是一种位置平均数,是总体中出现次数最多的变量值,因而在实际工作中有时有它特殊的用途。诸如,要说明一个企业中工人最普遍的技术等级,说明消费者需要的内衣、鞋袜、帽子等最普遍的号码,说明农贸市场上某种农副产品最普遍的成交价格等,都需要利用众数。但是必须注意,从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数。只有在总体单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。
3. 众数特点
(1)众数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,它不受分布数列的极大或极小值的影响,从而增强了众数对分布数列的代表性。
(2)当分组数列没有任何一组的次数占多数,也即分布数列中没有明显的集中趋势,而是近似于均匀分布时,则该次数分配数列无众数。若将无众数的分布数列重新分组或各组频数依序合并,又会使分配数列再现出明显的集中趋势。
(3)如果与众数组相比邻的上下两组的次数相等,则众数组的组中值就是众数值;如果与众数组比邻的上一组的次数较多,而下一组的次数较少,则众数在众数组内会偏向该组下限;如果与众数组比邻的上一组的次数较少,而下一组的次数较多,则众数在众数组内会偏向该组上限。
(4)缺乏敏感性。这是由于众数的计算只利用了众数组的数据信息,不象数值平均数那样利用了全部数据信息。
5.2..2 中位数(Median)
1. 中位数的含义
中位数是将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。中位数用Me表示。
从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。中位数的作用与算术平均数相近,也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。
在数列中出现了极端变量值的情况下,用中位数作为代表值要比用算术平均数更好,因为中位数不受极端变量值的影响;如果研究目的就是为了反映中间水平,当然也应该用中位数。在统计数据的处理和分析时,可结合使用中位数。
2. 中位数的计算
确定中位数,必须将总体各单位的标志值按大小顺序排列,最好是编制出变量数列。这里有两种情况:
(1)对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:
则中位数就可以按下面的方式确定:
(5–8)
例如,根据例5–2的数据,计算50名工人日加工零件数的中位数。中位数的位置在(50+1)/2 = 25.5,中位数在第25个数值(123)和第26个数值(123)之间,即Me = (123+123)/2=123(件)。
(2)由分组资料确定中位数
由组距数列确定中位数,应先按的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。
(5–9)
式中: Me——中位数;
L——中位数所在组下限;
U——中位数所在组上限;
fm——为中位数所在组的次数;
——总次数;
d——中位数所在组的组距;
Sm–1——中位数所在组以下的累计次数;
Sm+1——中位数所在组以上的累计次数。
例5–9 根据例5–2的数据,计算50名工人日加工零件数的中位数。
解:
表5–8 某企业50名工人加工零件中位数计算表
按零件数分组(个)
频数(人)
向上累计(人)
向下累计(人)
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
3
8
16
30
40
46
50
50
47
42
34
20
10
4
由表5–8可知,中位数的位置 = 50/2 = 25,即中位数在120~125这一组,L = 120,Sm–1 = 16,U=125,Sm+1 =20,fm = 14,d = 5,根据中位数公式得:
或
3. 中位数特点
(1)中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。
(2)有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。
(3)缺乏敏感性。
5.2.3 众数、中位数和算术平均数的比较
1. 众数、中位数和算术平均数的关系
算术平均数、众数和中位数之间的关系与次数分布数列有关。在次数分布完全对称时,算术平均数、众数和中位数都是同一数值,见图5–1;在次数分布非对称时,算术平均数、众数和中位数不再是同一数值了,而具有相对固定的关系。在尾巴拖在右边的正偏态(或右偏态)分布中,众数最小,中位数适中,算术平均数最大,见图5–2;在尾巴拖在左边的负偏态(或左偏态)分布中,众数最大,中位数适中,算术平均数最小,见图5–3。
图5–1
图5–2
图5–3
在统计实务中,可以利用算术平均数、中位数和众数的数量关系判断次数分布的特征。此外还可利用三者的关系进行相互之间估算。根据经验,在分布偏斜程度不大的情况下,不论右偏或左偏,三者存在一定的比例关系,即众数与中位数的距离约为算术平均数与中位数的距离2倍,用公式表示为:,由此可以得到三个推导公式:
2. 应用
众数、中位数和算术平均数各自具有不同的特点,掌握它们之间的关系和各自的特点,有助于我们在实际应用中选择合理的测度值来描述数据的集中趋势。
众数是一种位置代表值,易理解,不受极端值的影响。任何类型的数据资料都可以计算,但主要适合于作为定类数据的集中趋势测度值;即使资料有开口组仍然能够使用众数。众数不适于进一步代数运算;有的资料众数根本不存在;当资料中包括多个众数时,很难对它进行比较和说明,应用不如算术平均数广泛。
中位数也是一种位置代表值,不受极端值的影响;除了数值型数据,定序数据也可以计算,而且主要适合于作为定序数据的集中趋势测度值,而且开口组资料也不影响计算。中位数不适于进一步代数运算,应用不如算术平均数广泛。
算术平均数的含义通俗易懂,直观清晰;全部数据都要参加运算,因此它是一个可靠的具有代表性的量;任何一组数据都有一个平均数,而且只有一个平均数;用统计方法推断几个样本是否取自同一总体时,必须使用算术平均数;具有优良的数学性质,适合于代数方法的演算。算术平均数是实际中应用最广泛的集中趋势测度值,主要适合于作为定距和定比数据的集中趋势测度值;最容易受极端值的影响;对于偏态分布的数据,算术平均数的代表性较差;资料有开口组时,按相邻组组距计算假定性很大,代表性降低。
5.3 离中趋势
5.3.1 离中趋势的测定——变异指标
变异指标是反映总体各单位标志值的差别大小程度的综合指标,又称标志变动度。平均指标反映总体一般数量水平的同时,掩盖了总体各单位标志值的数量差异。变异指标弥补了这方面的不足,它综合反映了总体各单位标志值的差异性,从另一方面说明了总体的数量特征。平均指标说明总体各单位标志值的集中趋势,而变异指标则说明标志值的分散程度或离中趋势。
变异指标是衡量平均指标代表性的尺度。一般来讲,数据分布越分散,变异指标越大,平均指标的代表性越小;数据分布越集中,变异指标越小,平均指标的代表性越大。常用的变异指标有:全距、平均差、方差和标准差、变异系数。
5.3.2 全距(Range)
全距也称为极差,是指总体各单位的两个极端标志值之差,即:
R=最大标志值-最小标志值
因此,全距(R)可反映总体标志值的差异范围。
例5–10 有两个学习小组的统计学开始成绩分别为:
第一组:60,70,80,90,100
第二组:78,79,80,81,82
很明显,两个小组的考试成绩平均分都是80分,但是哪一组的分数比较集中呢?
如果用全距指标来衡量,则有
R甲=100-60=40(分)
R乙=82-78=4(分)
这说明第一组资料的标志变动度或离中趋势远大于第二组资料的标志变动度。
根据组距计算极差,是测定标志变动度的一种简单方法,但受极端值的影响,因而它往往不能充分反映社会经济现象的离散程度。
在实际工作中,全距常用来检查产品质量的稳定性和进行质量控制。在正常生产条件下,全距在一定范围内波动,若全距超过给定的范围,就说明有异常情况出现。因此,利用全距有助于及时发现问题,以便采取措施,保证产品质量。
5.3.3 平均差(Mean Deviation)
平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大,则表示标志变动度越大,反之则表示标志变动度越小。
在资料未分组的情况下,平均差的计算公式为:
A.D= (5–10)
采用标志值对算术平均数的离差绝对值之和,是因为各标志值对算术平均数的离差之代数和等于零。仍以甲组学生数学成绩为例,计算平均差如下:
A.D=
在资料已分组的情况下,要用加权平均差公式:
A.D=
例5–11 某厂按月收入水平分组的组距数列如表5–9中前两列,计算平均差。
表5–9
职工工资(元)
职工人数(f)
组中值(x)
xf
x-
250-270
270-290
290-310
330-350
15
25
35
65
40
260
280
300
320
340
3900
7000
10500
20800
13600
-50
-30
-10
10
30
750
750
350
650
1200
180
––––
55800
3700
解:根据公式列表计算,得到
A.D=
由于平均差采用了离差的绝对值,不便于运算,这样使其应用受到了很大限制。
5.3.4 方差(Variance)与标准差(Standard Deviation)
方差和标准差是测度数据变异程度的最重要、最常用的指标。方差是各个数据与其算术平均数的离差平方的平均数,通常以σ2表示。方差的计量单位和量纲不便于从经济意义上进行解释,所以实际统计工作中多用方差的算术平方根–––标准差来测度统计数据的差异程度。标准差又称均方差,一般用σ表示。方差和标准差的计算也分为简单平均法和加权平均法,另外,对于总体数据和样本数据,公式略有不同。
1. 总体方差和标准差
设总体方差为,对于未经分组整理的原始数据,方差的计算公式为:
(5–12)
对于分组数据,方差的计算公式为:
(5–13)
方差的平方根即为标准差,其相应的计算公式为:
未分组数据: (5–14)
分组数据: (5–15)
2. 样本方差和标准差
样本方差与总体方差在计算上的区别是:总体方差是用数据个数或总频数去除离差平方和,而样本方差则是用样本数据个数或总频数减1去除离差平方和,其中样本数据个数减1即n-1称为自由度。设样本方差为,根据未分组数据和分组数据计算样本方差的公式分别为:
未分组数据: (5–16)
分组数据: (5–17)
未分组数据: (5–18)
分组数据: (5–19)
例5–12 考察一台机器的生产能力,利用抽样程序来检验生产出来的产品质量,假设搜集的数据如下:
3.43
3.45
3.43
3.48
3.52
3.50
3.39
3.48
3.41
3.38
3.49
3.45
3.51
3.50
根据该行业通用法则:如果一个样本中的14个数据项的方差大于0.005,则该机器必须关闭待修。问此时的机器是否必须关闭?
解:根据已知数据,计算
因此,该机器工作正常。
方差和标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确地反映出数据的离散程度。方差和标准差是实际中应用最广泛的离散程度测度值。
5.3.5 变异系数(Coefficient of Variation)
上面介绍的各离散程度测度值都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,也就是与变量的均值大小有关。变量值绝对水平越高,离散程度的测度值自然也就越大,绝对水平越低,离散程度的测度值自然也就越小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能直接用上述离散程度的测度值直接进行比较的。为了消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。
离散系数通常是就标准差来计算的,因此,也称为标准差系数,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算公式为:
(5–20)
Vσ和Vs分别表示总体离散系数和样本离散系数。
离散系数要是用于对不同组别数据的离散程度进行比较,离散系数大的说明该组数据的离散程度也就大,离散系数小的说明该组数据的离散程度也就小。
例5–13 某管理局抽查了所属的8家企业,其产品销售数据如表5–10所示。试比较产品销售额与销售利润的离散程度。
表5–10 某管理局所属8家企业的产品销售数据
企业编号
产品销售额(万元)X1
销售利润(万元)X2
1
2
3
4
5
6
7
8
170
220
390
430
480
650
950
1000
8.1
12.5
18.0
22.0
26.5
40.0
64.0
69.0
解:由于销售额与利润额的数据水平不同,不能直接用标准差进行比较,需要计算离散系数。由表中数据计算得
计算结果表明,V1<V2,说明产品销售额的离散程度小于销售利润的离散程度。
5.4 EXCEL描述统计功能
Microsoft EXCEL是一个设计精良、功能齐全的办公软件。它除了具有我们常用的办公功能,如通过电子表格的形式对数字数据进行组织和计算;将数字数据转化为可视化的图表和数据库管理功能外。它还是一个十分强大而且非常易用于使用数据统计和预测工具。EXCEL的统计功能分为基本统计和预测两部分。我们将按照统计顺序逐一介绍。这一节将介绍EXCEL2000的基本描述性统计功能。
描述性统计可通过EXCEL提供的统计函数或加载宏来完成,下面我们分别介绍EXCEL的描述性统计功能。
5.4.1 用EXCEL统计函数进行特征值计算
EXCEL描述性统计函数主要包括一般统计函数,集中趋势函数和变异统计函数:
如图5–4所示,单元格区域B4:B53是第三章第三节为数据分组的例3–3。C4:C19是一些描述性统计量的说明。D4:D19是一般统计结果。其做法有如下两种。
1.在单元格D3中输入公式“=COUNT (B4:B53)”并回车,得到B4:B53区域中非空数值型数据的个数统计;在单元格D4中输入公式“=SUM(B3:B53)”并回车,得到50名工人日加工零件数的总和;同样,在D5:D15单元格中中分别输入MAX、MIN、AVERAGE、MEDIAN、GEOMEAN、HARMEAN、AVEDEV、STDEV、VAR、KURT和SKEW 函数,分别得到50个数据中的最大值、最小值、平均值、中位数、几何平均数和调和平均数及变异统计的平均差、标准差、方差峰度和偏度。
图5–4 统计函数
2.首先在EXCEL2000的系统工具栏中选择“插入”中的函数,其次在函数对话框中选择所计算的函数,然后根据函数向导提示一步步的完成。其具体操作如图5–5(A–C)。
5.4.2 宏程序进行特征值计算
除了利用上述统计函数完成统计数据分析外,EXCEL还在数据分析宏程序中提供了一个描述性统计过程。对于例3–3,我们也可以利用这个“描述性统计”宏过程来计算,其方法更为简单。
1. 我们点击图中的“描述性统计”过程,“描述性统计”过程的菜单如图5–5A,5–5B,5–5C 所示。我们在“输入区域”中输入数据所在单元格区域“B3:B53”,选择输出“汇总统计”和“平均数值信度”,在“K个最大值”和“K个最小值”选择中,选择系统默认值“1”,表示选择输出第1个最大值和第1个最小值。输入“输出区域”为E1单元格,然后按“确定”,即得到图所示特征值计算结果,该结果与图中利用统计函数计算的结果是一致的。
2.首先在EXCEL2000的系统工具栏中选择“插入”中的函数,其次在函数对话框中选择所计算的函数,然后根据函数向导提示一步步的完成。其具体操作如图5–5(A–C)。
。
图5–5A 数据分析宏程序
图5–5B 描述性统计过程对话框
图5–5C描述性统计结果
实训练习
【基本训练】
【单项选择】
1.平均指标反映了( )
①总体次数分布的集中趋势 ②总体分布的特征
③总体单位的集中趋势 ④总体次数分布的离中趋势
2.某单位的生产小组工人工资资料如下:90元、100元、110元、120元、128元、148元、200元,计算结果均值为元,标准差为( )
①σ=33 ②σ=34 ③σ=34.23 ④σ=35
3.众数是总体中下列哪项的标志值( )
①位置居中 ②数值最大
③出现次数较多 ④出现次数最多
4.某工厂新工人月工资400元,工资总额为200000元,老工人月工资800元,工资总额80000元,则平均工资为( )
①600元 ②533.33元 ③466.67元 ④500元
5.标志变异指标说明变量的( )
①变动趋势 ②集中趋势 ③离中趋势 ④一般趋势
6.标准差指标数值越小,则反映变量值( )
①越分散,平均数代表性越低 ②越集中,平均数代表性越高
③越分散,平均数代表性越高 ④越集中,平均数代表性越低
7.在抽样推断中应用比较广泛的指标是( )
①全距 ②平均差 ③标准差 ④标准差系数
【多项选择题】
1.根据标志值在总体中所处的特殊位置确定的平均指标有( )
①算术平均数 ②调和平均数 ③几何平均数
④众数 ⑤中位数
2.影响加权算术平均数的因素有( )
①总体标志总量 ②分配数列中各组标志值
③各组标志值出现的次数 ④各组单位数占总体单位数比重
⑤权数
3.标志变异指标有( )
①全距 ②平均差 ③标准差 ④标准差系数 ⑤相关系数
4.在组距数列的条件下,计算中位数的公式为( )
① ②
③ ④
⑤
5.几何平均数的计算公式有( )
① ②
③ ④ ⑤
【技能训练】
1.某企业360名工人生产某种产品的资料如表1:
表1
工人按日产量分组(件)
工人数(人)
7月份
8月份
20以下
20~30
30~40
40~50
50~60
60以上
30
78
108
90
42
12
18
30
72
120
90
30
合计
360
360
试分别计算7、8月份平均每人日产量,并简要说明8月份平均每人日产量变化的原因。
2.某地甲乙两个农贸市场三种主要蔬菜价格及销售额资料如表2:
表2
品 种
价 格
(元/千克)
销售额(万元)
甲市场
乙市场
甲
乙
丙
0.30
0.32
0.36
75.0
40.0
45.0
37.5
80.0
45.0
试计算比较该地区哪个农贸市场蔬菜平均价格高?并说明原因。
3.某地区抽样调查职工家庭收入资料如表3:
表3
按平均每人月收入分组(元)
职工户数
100~200
200~300
300~400
400~500
500~600
600~700
700~800
800~900
6
10
20
30
40
240
60
20
试根据上述资料计算(1)职工家庭平均每人月收入(用算术平均数公式);
(2)依下限公式计算确定中位数和众数;
(3)简要说明其分布特征。
4.某工业局全员劳动生产率的标准差为512元,标准差系数为8.4%。试求该工业局全员劳动生产率水平(要求列出公式和算式)。
【实训提示】
【单项选择】
1、① 2、③ 3、④ 4、③ 5、③ 6、② 7、③
【多项选择题】
1、④⑤ 2、 ②③④⑤ 3、①②③④ 4、 ③④ 5、 ①④⑤
【技能训练】
1.7月份平均每人日产量=37件
8月份平均每人日产量=44件
根据计算结果得知8月份比7月份平均每人日产量多7件。其原因是不同日产量水平的工人所占比重发生变化所致。7月份工人日产量在40件以上的工人只占全部工人数的40%,而8月份这部分工人所占比重则为66.67%。
2.甲市场平均价格=0.32(元/千克)
乙市场平均价格=0.325(元/千克)
经计算得知,乙市场蔬菜平均价格高,其原因是乙市场价格较高的蔬菜销售量比重大于甲市场,也可以说,乙市场蔬菜平均价格高的蔬菜销售额比重大于甲市场。
3.(1)该地区职工家庭平均每人月收入=619.5(元)
(2)依下限公式计算确定中位数=644.6(元)
依下限公式计算确定众数=652.6(元)
(3) 分布特征是左偏态分布,即高收入的较多。
4.
即该工业局全员劳动生产率为6095.24元。