第3编 概率论与数理统计第8章 数据处理一、引入:平均数“骗人”
2000年,全世界陆地面积达1.5亿平方公里,平均每平方公里不到100人,可是新加坡超过6000人,蒙古则不到2人.
2000年,我国居民储蓄存款余额64332亿元,平均每户18467元,每人5082元.可是,全国农户年纯收入超过5000元者仅占7.45%,实际上超过80%的储蓄集中在不到20%的人手里.
2000年,我国某些省市的上市公司的平均利润额都是上升的,可是,除了一两个盈利大户外,其他上市公司的利润额都是下降的,甚至是亏损的.
据此,有人认为,“平均数最能骗人!”
但实际上,平均数又最能服人:
2000年,我国国内生产总值89404亿元,早已进入世界前10名,可是,人均只有7078元,排在100名开外.
2000年,我国钢产量1.285亿吨,居世界第一,可是,人均产量不到100公斤,只是我们邻居韩、日两国的1/8左右.
可见,根据经济分析的不同目的,可以使用不同数据处理方法.以国内生产总值为例:说明一国经济实力,用年国内生产总值总量为宜;说明一国发展阶段,用人均国内生产总值为宜;说明一国发展速度,用国内生产总值增长率为宜;说明一国经济效益,用人均劳动生产率为宜;说明一国收入分配,以基尼系数为宜.
为此,要全面描述一个总体的各种特点,必须使用不同方法处理不同数据.平均数只是从平均的意义描述一个总体的状态,就看你如何使用.数据指标没有好坏,使用方法却分优劣.
二、本章内容结构
三、学习方法这一章的中心内容是对搜集到的数据进行适当处理,找出数据的某些统计规律性.为此,介绍了三种基本的数据处理方法:
1.计算统计数据的一些重要特征数,如均值、方差等等;
2.列频数分布表;
3.作频数直方图、频率直方图及频率密度曲线等.
同时,为了对统计知识有初步的了解,还介绍了几个常见的概念:1.总体和样本;2.正态曲线.
总体和样本是统计分析中最基本和最常见的概念.学习这部分内容时,从理解总体和样本的概念入手,要理解研究总体是从研究样本数据开始的,研究样本数据的目的是为了推断总体的性质,弄清了这一点,很自然地会想到面对收集到的一批样本数据如何进行处理的问题,如果收集到的数据少,通过计算它的均值或加权平均数、几何平均数、方差或标准差等特征数,从而对总体有一个大致的了解,有时甚至可用更简单、方便的方法,如通过中位数、众数或极差等特征数,粗略地了解总体的情况,但如果想更多地知道总体性质;如数据在哪个范围内出现的次数最多?某个范围内数据出现的百分比是多少?等等,就需要抽取更多的样本数据进行研究.这时仅计算数据的特征数是不够的,需要通过对数据进行适当的分组,计算组频数、组频率等指标,才能描述出数据的统计规律性.同时由于数据多,计算均值和方差也是比较麻烦的,寻找一种简便的均值和方差的计算方法,就是很自然的事情了.解决上述问题的有效方法就是列一张频数分布表,它包含组限、组中值、组频数和组频率等指标.把频数分布表用几何图形表示出来,就是绘制频数直方图和频率直方图,从中可以直观地看出数据的统计规律性,由于我们获得的资料往往是客观对象中的一部分(也就是样本),设想如果能够将全部的资料都收集到,则它的频率直方图就可以用一条连续的曲线来代替,这条曲线描述的就是总体的分布情况,这也正是频率密度曲线的由来,实际问题中,最常见的频率密度曲线就是正态曲线.
在学习本章内容的时候,要掌握一组数据的均值、方差的计算方法,掌握加权平均数和加权方差的计算方法,知道均值是一组数据的“代表”性数值,表示总体的平均水平;方差是描述数据分散程度的数值,方差越大,表示数据越分散,反之方差越小,表示数据越集中.另外中位数和众数也反映总体的平均情况.极差是描述数据分散程度的数,由于它们都不需要复杂的计算,容易确定,因此在实际问题中也经常使用它们描述数据的平均水平或分散程度.
列频数分布表时,范围(,)以略小于样本数据的最小值,略大于样本数据最大值为宜.组数要适当.因为组数太多,不易显出数据的统计规律性,计算也比较麻烦;组数太少,分析粗糙,计算误差较大.一般采用等组距分组,组距等于范围/组数,组限就是指相邻的两个分点组成的左闭右开区间.用唱票或划斜杠(////)的方法数各组的频数,并计算组频率和组中值.将上述内容一一填入表内,就得到频数分布表.为检验组频数和组频率是否正确,可计算组频数之和是否为样本容量,组频率之和是否为1.
利用频数分布表近似计算样本数据的均值及其方差,是计算多个数据的特征数时常用的方法.
通过对本章的学习,要掌握均值、加权平均数、方差等特征数的基本计算方法,学会数据个数较多时的处理方法,即列频数分布表,画频数直方图和频率直方图等,从中了解总体的分布情况.
四、教学要求
1.了解总体、样本、均值等基本概念;
2.了解加权平均数、几何平均数,直方图与频率密度曲线等基本概念.
五、讲授内容第一单元 重要的特征数第二单元 直方图
2000年,全世界陆地面积达1.5亿平方公里,平均每平方公里不到100人,可是新加坡超过6000人,蒙古则不到2人.
2000年,我国居民储蓄存款余额64332亿元,平均每户18467元,每人5082元.可是,全国农户年纯收入超过5000元者仅占7.45%,实际上超过80%的储蓄集中在不到20%的人手里.
2000年,我国某些省市的上市公司的平均利润额都是上升的,可是,除了一两个盈利大户外,其他上市公司的利润额都是下降的,甚至是亏损的.
据此,有人认为,“平均数最能骗人!”
但实际上,平均数又最能服人:
2000年,我国国内生产总值89404亿元,早已进入世界前10名,可是,人均只有7078元,排在100名开外.
2000年,我国钢产量1.285亿吨,居世界第一,可是,人均产量不到100公斤,只是我们邻居韩、日两国的1/8左右.
可见,根据经济分析的不同目的,可以使用不同数据处理方法.以国内生产总值为例:说明一国经济实力,用年国内生产总值总量为宜;说明一国发展阶段,用人均国内生产总值为宜;说明一国发展速度,用国内生产总值增长率为宜;说明一国经济效益,用人均劳动生产率为宜;说明一国收入分配,以基尼系数为宜.
为此,要全面描述一个总体的各种特点,必须使用不同方法处理不同数据.平均数只是从平均的意义描述一个总体的状态,就看你如何使用.数据指标没有好坏,使用方法却分优劣.
二、本章内容结构
三、学习方法这一章的中心内容是对搜集到的数据进行适当处理,找出数据的某些统计规律性.为此,介绍了三种基本的数据处理方法:
1.计算统计数据的一些重要特征数,如均值、方差等等;
2.列频数分布表;
3.作频数直方图、频率直方图及频率密度曲线等.
同时,为了对统计知识有初步的了解,还介绍了几个常见的概念:1.总体和样本;2.正态曲线.
总体和样本是统计分析中最基本和最常见的概念.学习这部分内容时,从理解总体和样本的概念入手,要理解研究总体是从研究样本数据开始的,研究样本数据的目的是为了推断总体的性质,弄清了这一点,很自然地会想到面对收集到的一批样本数据如何进行处理的问题,如果收集到的数据少,通过计算它的均值或加权平均数、几何平均数、方差或标准差等特征数,从而对总体有一个大致的了解,有时甚至可用更简单、方便的方法,如通过中位数、众数或极差等特征数,粗略地了解总体的情况,但如果想更多地知道总体性质;如数据在哪个范围内出现的次数最多?某个范围内数据出现的百分比是多少?等等,就需要抽取更多的样本数据进行研究.这时仅计算数据的特征数是不够的,需要通过对数据进行适当的分组,计算组频数、组频率等指标,才能描述出数据的统计规律性.同时由于数据多,计算均值和方差也是比较麻烦的,寻找一种简便的均值和方差的计算方法,就是很自然的事情了.解决上述问题的有效方法就是列一张频数分布表,它包含组限、组中值、组频数和组频率等指标.把频数分布表用几何图形表示出来,就是绘制频数直方图和频率直方图,从中可以直观地看出数据的统计规律性,由于我们获得的资料往往是客观对象中的一部分(也就是样本),设想如果能够将全部的资料都收集到,则它的频率直方图就可以用一条连续的曲线来代替,这条曲线描述的就是总体的分布情况,这也正是频率密度曲线的由来,实际问题中,最常见的频率密度曲线就是正态曲线.
在学习本章内容的时候,要掌握一组数据的均值、方差的计算方法,掌握加权平均数和加权方差的计算方法,知道均值是一组数据的“代表”性数值,表示总体的平均水平;方差是描述数据分散程度的数值,方差越大,表示数据越分散,反之方差越小,表示数据越集中.另外中位数和众数也反映总体的平均情况.极差是描述数据分散程度的数,由于它们都不需要复杂的计算,容易确定,因此在实际问题中也经常使用它们描述数据的平均水平或分散程度.
列频数分布表时,范围(,)以略小于样本数据的最小值,略大于样本数据最大值为宜.组数要适当.因为组数太多,不易显出数据的统计规律性,计算也比较麻烦;组数太少,分析粗糙,计算误差较大.一般采用等组距分组,组距等于范围/组数,组限就是指相邻的两个分点组成的左闭右开区间.用唱票或划斜杠(////)的方法数各组的频数,并计算组频率和组中值.将上述内容一一填入表内,就得到频数分布表.为检验组频数和组频率是否正确,可计算组频数之和是否为样本容量,组频率之和是否为1.
利用频数分布表近似计算样本数据的均值及其方差,是计算多个数据的特征数时常用的方法.
通过对本章的学习,要掌握均值、加权平均数、方差等特征数的基本计算方法,学会数据个数较多时的处理方法,即列频数分布表,画频数直方图和频率直方图等,从中了解总体的分布情况.
四、教学要求
1.了解总体、样本、均值等基本概念;
2.了解加权平均数、几何平均数,直方图与频率密度曲线等基本概念.
五、讲授内容第一单元 重要的特征数第二单元 直方图