第 3章 数据描述统计分析
3.1 集中趋势的测定与分析
3.2 离中趋势的测定与分析
3.3 分布形态的测定与分析
3.4 描述统计工具本章学习目标
Excel描述数据集中趋势的工作表函数及其应用
Excel描述数据离中趋势的工作表函数及其应用
Excel描述数据分布形态的工作表函数及其应用
Excel描述统计工具的内容及其应用
3.1 集中趋势的测定与分析
3.1.1 集中趋势的测定内容
3.1.2 用 Excel工作表函数描述集中趋势
3.1.3 三种平均数的特点返回首页
3.1.1 集中趋势的测定内容在统计研究中,需要搜集大量数据并对其进行加工整理,对这些数据进行整理之后发现:大多数情况下数据都会呈现出一种钟形分布,即各个变量值与中间位置的距离越近,出现的次数越多;
与中间位置距离越远,出现的次数越少,从而形成了一种以中间值为中心的集中趋势 。 这个集中趋势是现象共性的特征,是现象规律性的数量表现 。
返回本节
3.1.2 用 Excel工作表函数描述集中趋势
1,均值函数
( 1) 算术平均数 。
( 2) 调和平均数 。
( 3)几何平均数。
2,中位数 ( 中位次数 ) 函数中位数是指全体数值按大小排列后位于中间的数值 。
语法,MEDIAN(number1,number2,...)
如 果 参 数 集 合 中 包 含 有 偶 数 个 数 字,函数
MEDIAN()将返回位于中间的两个数的平均值 。
3,众数函数众数是一组数列中出现次数最多的数值,众数函数 MODE()返回某一数组或数据区域中出现频率最多的数值 。 与 MEDIAN相同,MODE也是一个位置测量函数 。
语法,MODE(number1,number2,...)
如果数据集合中不含有重复的数据,则 MODE()
函数返回错误值 N/A。
4,最大 ( 小 ) 值函数最大 ( 小 ) 值函数可以返回数据集中的最大 ( 小 )
数值 。
语法,MAX(number1,number2,...)
MIN(number1,number2,...)
如果参数不包含数字,函数 MAX( MIN) 返回 0。
返回本节
3.1.3 三种平均数的特点众数是一组数据中出现次数最多的变量值,它用于对分类数据的概括性度量,其特点是不受极端值的影响,但它没有利用全部数据信息,而且还具有不惟一性。一组数据可能有众数,也可能没有众数;可能有一个众数,也可能有多个众数。
中位数是一组数据按大小顺序排序后处于中间位置上的变量,它主要用于对顺序数据的概括性度量。
均值是一组数据的算术平均,它利用了全部数据信息,是概括一组数据最常用的一个值。
例 3-1 某商场家用电器销售情况如图 3-1所示 。
( 1) 计算各种电器的全年平均销售量,如图 3-2
所示 。
( 2) 计算各种电器销售量的中位数,如图 3-3所示 。
( 3)计算各种电器销售量的众数,如图 3-4所示。
图 3-1 某商场家用电器销售情况图 3-2 家用电器销售量平均数图 3-3 家用电器销售量中位数图 3-4 家用电器销售量众数返回本节
3.2 离中趋势的测定与分析
3.2.1 离中趋势的测定内容
3.2.2 用 Excel函数计算标准差
3.2.3 四分位数与四分位距返回首页
3.2.1 离中趋势的测定内容在研究现象总体标志的一般水平时,不仅要研究总体标志的集中趋势,还要研究总体标志的离中趋势,如研究价格背离价值的平均程度 。 研究离中趋势可以通过计算标志变异指标来进行 。 标志变异指标是同统计平均数相联系的一种综合指标,
用于度量随机变量在取值区间内的分布情况,主要有平均差,标准差,方差,四分位数,百分位数等 。 在一般计算中,这些指标计算是比较复杂的,但在 Excel中都有相应的函数,因而使计算变得很简单 。
返回本节
3.2.2 用 Excel函数计算标准差
1.样本标准差
2.总体标准差
1.样本标准差样本标准差函数用来估算样本的标准偏差,反映相对于平均值( mean) 的离散程度,Excel计算样本标准差采用不偏估计式(亦即自由度= n-1),
其计算公式为
1
22
nn
xxn
s
语法,STDEV(number1,number2,...)
2.总体标准差总体标准差函数返回以参数形式给出的整个样本总体的标准偏差,反映相对于平均值( mean) 的离散程度。计算总体标准差使用整个总体的变量,
通常采用偏性估计式(亦即自由度为 n),其计算公式为
2
22
n
xxn
语法,STDEVP(number1,number2,...)
例 3-2 使用例 3-1资料,计算各家电销售量的总体标准差,如图 3-5所示 。
图 3-5 计算总体标准差例 3-3 两组工人生产某种零件的产量如图 3-6所示 。
图 3-6 两组工人产量图 3-7 计算产量平均数图 3-8 计算两组工人产量标准差图 3-9 计算两组工人产量标准差系数返回本节
3.2.3 四分位数与四分位距四分位数是将中值的前后两部分数值再等分为二,以数值小的一端算起,前半部的分区点称为第 1四分位数,后半部的分区点称为第 3四分位数,而中值即为第 2四分位数 。
四分位数通常用于在销售额和测量值数据集中对总体进行分组 。
语法,QUARTILE(array,quart)
array,需要求四分位数值的数组或数字型单元格区域 。
quart,决定返回哪一个四分位值 。
Quart值与 QUARTILE返回值的对应关系见表 3-1所示 。
quart值 函数 QUARTILE返回值
0 最小数值
1 第一个四分位数(第 25个百分排位)
2 中分位数(第 50个百分排位)
3 第三个四分位数(第 75个百分排位)
4 最大数值表 3-1 Quart值与 QUARTILE返回值的对应关系例 3-4 使用例 3-1资料,计算四分位数和四分位距,如图 3-10所示。
图 3-10 计算四分位数和四分位距 返回本节
3.3 分布形态的测定与分析
3.3.1 分布形态的测定内容
3.3.2 用 Excel工作表函数描述分布形态返回首页
3.3.1 分布形态的测定内容只用集中趋势和离中趋势来表示所有数据,难免不够准确 。 分析总体次数的分布形态有助于识别整个总体的数量特征 。 总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低 。 前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度 。
峰度是掌握分布形态的另一指标,它能描述分布的平缓或陡峭程度 。 如果峰度数值等于零,说明分布为正态;如果峰度数值大于零,说明分布呈陡峭状态;如果峰度数值小于零,说明分布形态趋于平缓 。
返回本节
3.3.2 用 Excel工作表函数描述分布形态
1,偏度函数
2,峰度函数
1.偏度函数偏度函数返回分布的偏斜度。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称边的分布更趋向正值,负偏斜度表示不对称边的分布更趋向负值。其计算公式为
3
21
s
xx
nn
n i
语法,SKEW(number1,number2,...)
2.峰度函数峰度函数返回数据集的峰值,表示次数分布高峰的起伏状态。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布,
负峰值表示相对平坦的分布。其计算公式为
32
)1(3
321
1 2
4
nn
n
s
xx
nnn
nn i
语法,KURT(number1,number2,...)
例 3-5 使用例 3-1资料,计算各家电销售量的偏度和峰度,如图 3-11所示。
返回本节
3.4 描述统计工具对于统计数据的一些常用统计量,比如均值,中位数,众数,标准差,峰度系数,偏度系数等,
可以利用上述统计函数计算 。 但 Excel提供了一种更快捷的方法,就是描述统计工具 。 描述统计分析工具用于生成数据源区域中数据的单变量统计分析报表,它可以同时计算出一组数据的多个常用统计量,提供有关数据集中趋势和离中趋势以及分布形态等方面的信息 。
返回首页例 3-6 调查某企业生产车间 10名工人的月工资水平,资料如图 3-12所示 。 用描述统计工具对工人工资数据进行分析 。
图
3-
12
工资资料图 3-13,统计描述”对话框图 3-14,描述统计”工具输出结果返回本节
3.1 集中趋势的测定与分析
3.2 离中趋势的测定与分析
3.3 分布形态的测定与分析
3.4 描述统计工具本章学习目标
Excel描述数据集中趋势的工作表函数及其应用
Excel描述数据离中趋势的工作表函数及其应用
Excel描述数据分布形态的工作表函数及其应用
Excel描述统计工具的内容及其应用
3.1 集中趋势的测定与分析
3.1.1 集中趋势的测定内容
3.1.2 用 Excel工作表函数描述集中趋势
3.1.3 三种平均数的特点返回首页
3.1.1 集中趋势的测定内容在统计研究中,需要搜集大量数据并对其进行加工整理,对这些数据进行整理之后发现:大多数情况下数据都会呈现出一种钟形分布,即各个变量值与中间位置的距离越近,出现的次数越多;
与中间位置距离越远,出现的次数越少,从而形成了一种以中间值为中心的集中趋势 。 这个集中趋势是现象共性的特征,是现象规律性的数量表现 。
返回本节
3.1.2 用 Excel工作表函数描述集中趋势
1,均值函数
( 1) 算术平均数 。
( 2) 调和平均数 。
( 3)几何平均数。
2,中位数 ( 中位次数 ) 函数中位数是指全体数值按大小排列后位于中间的数值 。
语法,MEDIAN(number1,number2,...)
如 果 参 数 集 合 中 包 含 有 偶 数 个 数 字,函数
MEDIAN()将返回位于中间的两个数的平均值 。
3,众数函数众数是一组数列中出现次数最多的数值,众数函数 MODE()返回某一数组或数据区域中出现频率最多的数值 。 与 MEDIAN相同,MODE也是一个位置测量函数 。
语法,MODE(number1,number2,...)
如果数据集合中不含有重复的数据,则 MODE()
函数返回错误值 N/A。
4,最大 ( 小 ) 值函数最大 ( 小 ) 值函数可以返回数据集中的最大 ( 小 )
数值 。
语法,MAX(number1,number2,...)
MIN(number1,number2,...)
如果参数不包含数字,函数 MAX( MIN) 返回 0。
返回本节
3.1.3 三种平均数的特点众数是一组数据中出现次数最多的变量值,它用于对分类数据的概括性度量,其特点是不受极端值的影响,但它没有利用全部数据信息,而且还具有不惟一性。一组数据可能有众数,也可能没有众数;可能有一个众数,也可能有多个众数。
中位数是一组数据按大小顺序排序后处于中间位置上的变量,它主要用于对顺序数据的概括性度量。
均值是一组数据的算术平均,它利用了全部数据信息,是概括一组数据最常用的一个值。
例 3-1 某商场家用电器销售情况如图 3-1所示 。
( 1) 计算各种电器的全年平均销售量,如图 3-2
所示 。
( 2) 计算各种电器销售量的中位数,如图 3-3所示 。
( 3)计算各种电器销售量的众数,如图 3-4所示。
图 3-1 某商场家用电器销售情况图 3-2 家用电器销售量平均数图 3-3 家用电器销售量中位数图 3-4 家用电器销售量众数返回本节
3.2 离中趋势的测定与分析
3.2.1 离中趋势的测定内容
3.2.2 用 Excel函数计算标准差
3.2.3 四分位数与四分位距返回首页
3.2.1 离中趋势的测定内容在研究现象总体标志的一般水平时,不仅要研究总体标志的集中趋势,还要研究总体标志的离中趋势,如研究价格背离价值的平均程度 。 研究离中趋势可以通过计算标志变异指标来进行 。 标志变异指标是同统计平均数相联系的一种综合指标,
用于度量随机变量在取值区间内的分布情况,主要有平均差,标准差,方差,四分位数,百分位数等 。 在一般计算中,这些指标计算是比较复杂的,但在 Excel中都有相应的函数,因而使计算变得很简单 。
返回本节
3.2.2 用 Excel函数计算标准差
1.样本标准差
2.总体标准差
1.样本标准差样本标准差函数用来估算样本的标准偏差,反映相对于平均值( mean) 的离散程度,Excel计算样本标准差采用不偏估计式(亦即自由度= n-1),
其计算公式为
1
22
nn
xxn
s
语法,STDEV(number1,number2,...)
2.总体标准差总体标准差函数返回以参数形式给出的整个样本总体的标准偏差,反映相对于平均值( mean) 的离散程度。计算总体标准差使用整个总体的变量,
通常采用偏性估计式(亦即自由度为 n),其计算公式为
2
22
n
xxn
语法,STDEVP(number1,number2,...)
例 3-2 使用例 3-1资料,计算各家电销售量的总体标准差,如图 3-5所示 。
图 3-5 计算总体标准差例 3-3 两组工人生产某种零件的产量如图 3-6所示 。
图 3-6 两组工人产量图 3-7 计算产量平均数图 3-8 计算两组工人产量标准差图 3-9 计算两组工人产量标准差系数返回本节
3.2.3 四分位数与四分位距四分位数是将中值的前后两部分数值再等分为二,以数值小的一端算起,前半部的分区点称为第 1四分位数,后半部的分区点称为第 3四分位数,而中值即为第 2四分位数 。
四分位数通常用于在销售额和测量值数据集中对总体进行分组 。
语法,QUARTILE(array,quart)
array,需要求四分位数值的数组或数字型单元格区域 。
quart,决定返回哪一个四分位值 。
Quart值与 QUARTILE返回值的对应关系见表 3-1所示 。
quart值 函数 QUARTILE返回值
0 最小数值
1 第一个四分位数(第 25个百分排位)
2 中分位数(第 50个百分排位)
3 第三个四分位数(第 75个百分排位)
4 最大数值表 3-1 Quart值与 QUARTILE返回值的对应关系例 3-4 使用例 3-1资料,计算四分位数和四分位距,如图 3-10所示。
图 3-10 计算四分位数和四分位距 返回本节
3.3 分布形态的测定与分析
3.3.1 分布形态的测定内容
3.3.2 用 Excel工作表函数描述分布形态返回首页
3.3.1 分布形态的测定内容只用集中趋势和离中趋势来表示所有数据,难免不够准确 。 分析总体次数的分布形态有助于识别整个总体的数量特征 。 总体的分布形态可以从两个角度考虑,一是分布的对称程度,另一个是分布的高低 。 前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度 。
峰度是掌握分布形态的另一指标,它能描述分布的平缓或陡峭程度 。 如果峰度数值等于零,说明分布为正态;如果峰度数值大于零,说明分布呈陡峭状态;如果峰度数值小于零,说明分布形态趋于平缓 。
返回本节
3.3.2 用 Excel工作表函数描述分布形态
1,偏度函数
2,峰度函数
1.偏度函数偏度函数返回分布的偏斜度。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称边的分布更趋向正值,负偏斜度表示不对称边的分布更趋向负值。其计算公式为
3
21
s
xx
nn
n i
语法,SKEW(number1,number2,...)
2.峰度函数峰度函数返回数据集的峰值,表示次数分布高峰的起伏状态。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布,
负峰值表示相对平坦的分布。其计算公式为
32
)1(3
321
1 2
4
nn
n
s
xx
nnn
nn i
语法,KURT(number1,number2,...)
例 3-5 使用例 3-1资料,计算各家电销售量的偏度和峰度,如图 3-11所示。
返回本节
3.4 描述统计工具对于统计数据的一些常用统计量,比如均值,中位数,众数,标准差,峰度系数,偏度系数等,
可以利用上述统计函数计算 。 但 Excel提供了一种更快捷的方法,就是描述统计工具 。 描述统计分析工具用于生成数据源区域中数据的单变量统计分析报表,它可以同时计算出一组数据的多个常用统计量,提供有关数据集中趋势和离中趋势以及分布形态等方面的信息 。
返回首页例 3-6 调查某企业生产车间 10名工人的月工资水平,资料如图 3-12所示 。 用描述统计工具对工人工资数据进行分析 。
图
3-
12
工资资料图 3-13,统计描述”对话框图 3-14,描述统计”工具输出结果返回本节