第二章 统计数据的搜集与整理
第一节 数据的计量与类型
第二节 统计数据搜集的组织形式
第三节 统计数据搜集的方法
第四节 统计调查方案
第五节 统计数据的整理与显示第一节 数据的计量与类型一,数据的计量尺度二,数据的类型和分析方法三,统计指标及其类型数据的计量尺度四种计量尺度
数据的计量尺度定类尺度 定序尺度 定距尺度 定比尺度定类尺度
(概念要点 )
1,计量层次最低
2,对事物进行平行的分类
3,各类别可以指定数字代码表示
4,使用时必须符合类别穷尽和互斥的要求
5,数据表现为“类别”
6,具有 =或?的数学特性定序尺度
(概念要点 )
1,对事物分类的同时给出各类别的顺序
2,比定类尺度精确
3,未测量出类别之间的准确差值
4,数据表现为“类别”,但有序
5,具有 >或 <的数学特性定距尺度
(概念要点 )
对事物的准确测度
比定序尺度精确
数据表现为“数值”
没有绝对零点
具有 + 或 - 的数学特性定比尺度
(概念要点 )
对事物的准确测度
与定距尺度处于同一层次
数据表现为“数值”
有绝对零点
具有? 或? 的数学特性四种计量尺度的比较
√比 值
√√间 距
√√√排 序
√√√√分 类定比尺度定距尺度定序尺度定类尺度数据类型和分析方法数据类型与统计方法
数据类型与统计方法定类数据 定序数据品质数据 数量数据定距数据 定比数据参数方法非参数方法变量及其类型变 量定序变量离散变量 连续变量定类变量 数 值 变量统计指标及其类型统计指标及其类型时期指标 时点指标
统计指标相对指标总量指标 平均指标比例 比率总量指标
总量指标的概念和作用
总量指标的种类
计算和应用总量指标的原则总量指标 ( 概念)
总量指标,是反映社会经济现象在一定时间,
地点条件下所达到的总规模,总水平或工作总量的综合指标 。 它的表现形式是绝对数,因此也称为绝对指标 。
作用
总量指标是反映一个国家,一个地区或一个企业人力,物力,财力状况和加强宏观经济管理与企业经济核算的基本指标 。
总量指标是计算相对指标和平均指标的基础指标 。
总量指标的种类总量指标时间状态内容 计量单位总体总量标志总量时期指标时点指标实物指标价值指标劳动量指标按其反映的内容分类
总体单位总量:即总体单位数之和,它是由每个总体单位加总而得到的,反映总体规模的大小
总体标志总量:是指总体各单位某一数量标志值的总和,反映总体的规模和水平 。
总体单位总量和总体标志总量,并不是固定不变的,它随着研究目的的不同而变化 。 研究目的变了,总体和总体单位,总体总量和标志总量就会随之而变 。
按其时间状态分类
时期指标:又称时期数,指反映社会经济现象在一段时期内所达到的总规模,总水平或工作总量 。
如产品的产值,商品销售额,工资总额等 。
时点指标:又称为时点数,指反映社会经济现象在某一时点 (时刻 )所达到的数量状态,如年末人口数 ( 或人口普查中,11月 1日零时人口数 ),月末商品库存额,季末银行存款余额,年末固定资产净值等 。
时期指标与时点指标的区别
1、时期指标可以累计相加,各时点指标不能累计相加。
2、时期指标数值的大小与时期的长短密切相关,
时点指标数值的大小与时期长短无直接的关系。
实物指标:以实物单位计量的总量指标,即以事物的物理属性或自然属性作为计量单位的指标 。
– 自然单位,如人口用人,汽车用辆等;
– 度量衡单位,如棉布用米,木材用立方米,土地面积用平方千米等;
– 专用单位,如电用度,热量用焦耳等;
– 复合单位,如发电机用台 /千瓦,货物周转量用吨 /千米等;
– 标准实物单位,如棉纱以 20支纱为标准棉纱等 。
价值指标:以货币为计量单位的总量指标 。
劳动量指标:是指以劳动量单位计量的总量指标 。 即以劳动时间为计量单位的指标 。
按计量单位分类计算与应用总量指标的原则
1,正确确定指标的含义与计算范围 。
2,计算实物总量指标时只有同类才能相加
3,使用统一计量单位
4,总量指标,相对指标,平均指标要结合运用相对指标
相对指标的概念和作用
总量指标的种类与计算
计算和应用相对指标的原则
相对指标:是两个有联系的总量指标进行对比的比值,也称为相对数 。 它反映社会经济现象之间数量对比关系 。
作用
– 1、说明社会经济现象之间的数量对比关系。
– 2,把社会经济现象的绝对差异抽象化,使原来不能直接对比的统计指标可以进行对比 。
相对指标 (概念)
相对指标的表现形式
1,无名数:是一种抽象化的数值,通常的表现为成数,系数,倍数,百分数,千分数等 。 相对指标在很多场合都用无名数表示 。
2,有名数:是指有具体内容的计量单位的数值,
它有单名数和复名数之分 。
– 总量指标和部分相对指标用单名数表示,如商品流转速度指标用,次,或,天,表示;
– 有些相对指标如强度相对数,则通常采用分子指标与分母指标的计量单位共同构成的复合单位,即复名数表示 。 如人口密度用,人 /平方千米,表示,人均国民生产总值用,元 /人,表示,商业网密度用
,人 /个,或,个 /千人,表示等 。
相对指标的种类强度相对数相对指标计划完成相对数结构相对数动态相对数比较相对数比例相对数计划完成相对数,是计划期内实际完成数与计划数对比的比值。它表明某一时期内某种计划的完成程度,一般用百分数表示,故又称计划完成程度或计划完成百分数。
基本公式相对指标的计算
——计划完成相对数实际完成数计划完成数
× 100%?计划完成相对数 =
派生公式 1 + 实际增长率
1 + 计划增长率 × 100%
计划完成相对数 =
1 - 实际降低率
1 - 计划降低率 × 100%
计划完成相对数 =
将计划末期实际所达到的水平与同期计划规定应达到的水平对比计算计划完成相对数的方法。
用水平法在计算提前完成时间时,应以计划期内连续一年( 12个月)实际达到计划规定水平为准。
计算公式中长期计划完成相对数的计算
——水平法超额完成计划数达标月季日均产量-上年同季日均产量提前完成计划时间 =( 计划期月数-实际完成月数 ) +
计划期末年实达水平
× 100%计划完成相对数 =
计划期末年应达水平中长期计划完成程度 ——水平法(算例)
第一年第二年 上半年上半年 一季四季三季二季第四年第三年一季四季三季二季第五年 5 年合计时间产量 110 122 66 74 37 38 42 49 53 58 65 72 775
[例 2.1]甲企业某五年计划规定,A产品产量在计划期最后一年应达到
200万吨,实际执行结果如下表,计算该企业计划完成相对数及提前完成计划时间 。
计划期末年实达水平 × 100%=
计划完成相对数 =计划期末年应达水平 20053+58+65+72 =124%
超额完成计划数达标月季日均产量-上年同季日均产量提前 完成计划时间 =(计划期月数-实际完成月数 )+
=(5× 12- 4.5× 12)月+ 2(58- 38)/90 =6个月零 9天解,
中长期计划完成相对数的计算
——累计法
将计划期内各年累计实际完成数与同期计划规定的累计数对比计算计划完成相对数的方法。
适用于检查计划期内构成国民财产存量的经济指标,
如固定资产投资、住宅建设等计划完成情况。
计算公式计划内各年累计实际完成数 × 100%
计划完成相对数 = 同期计划规定的累计数超额完成计划数平均每日计划数提前完成计划时间 =( 计划期月数-实际完成月数 ) +
中长期计划完成程度 ——累计法(算例)
[例 2.2]某市某五年计划规定,整个计划期间基建投资总额应累计达到 500亿元,
实际执行结果如下表,试计算该市五年基建投资额计划完成程度和提前完成计划时间 。
500
超额完成计划数平均每日计划数提前 完成计划时间 =(计划期月数-实际完成月数 )+
=(5× 12- 4.75× 12)月+ 5500/(365× 5) 天 = 3个月零 18天第一年第二年 一季四季三季二季第五年 5 年合计时间投资额 140 135 40 22 525
第三年第四年
70 80 18 20
解,计划期内各年累计实际完成数
× 100%
计划完成相对数 = 同期计划规定累计数
525 =105%=
既可用于检查全期计划完成程度,又可以用来检查计划执行过程的进度 。
计算公式计划执行进度相对数的计算计划内某月止累计完成数
× 100%计划执行进度 =
本期计划完成数
解,1-9月计划执行进度 = 1125/1500× 100%=75%
计算结果说明,该公司 1-9月份销售额累计完成年计划的 75%,其计划执行进度与时间同步,只要第四季度保持前三季度的平均水平或有所提高,则年末就能完成或超额完成全年计划 。
计划执行进度相对数的计算 (算例)
[例 2.3] 某公司某公司 2000年计划完成商品销售额 1500万元,
1-9月止累计实际完成 1125万元,计算其计划执行进度 。
结构相对数:是总体中某部分数值与该总体数值对比的比值,它反映总体内部构成情况,一般用百分数表示 。
计算公式相对指标的计算
——结构相对数注意,同一总体的结构相对数之和应为 100%,且结构相对数的分子分母位置不能互换。
结构相对数 =
总体数值总体某部分数值 × 100%
恩格尔系数与消费结构分析
– 消费结构:是指各类消费支出在总消费支出中所占的比重 。
– 恩格尔系数,19世纪德国统计学家恩格尔根据对英国,
法国,德国,比利时等国居民家庭收支的分析研究,
指出:随着家庭收入增加,家庭收入或总支出中用于食品方面的支出比重越来越小,即恩格尔定律,反映这个定律的系数,称为恩格尔系数 。
– 恩格尔系数 = 食品支出总额 /消费支出总额结构相对数的计算
(算例)
恩格尔系数与消费结构分析 (算例)
[例 2.4]已知某地有关资料如下表:
50.51
47.74
45.68
42.35
40.72
40.59
恩格尔系数
( 3) = (2) / (1)
186.88
384.55
605.88
820.63
1047.52
1200.24
94.39
183.58
276.77
347.54
426.55
487.18
1995
1996
1997
1998
1999
2000
人均生活费支出
(元 )( 2)
人均食品支出
(元 )( 1)年 份从上表数据可看出,该地恩格尔系数不断下降,由 1995年的
50.51%降至 2000年的 40.59%。 说明该地经济发展较好,人民生活水平提高很快 。
比例相对数:是同一总体某一部分数值与另一部分数值对比的比值,它反映总体各部分间的内在联系和比例关系,一般用比数表示。
计算公式相对指标的计算
——比例相对数注意,比例相对数的分子分母同属一个总体,而且分子与分母的位置可以互换。
比例相对数 = 总体中另一部分数值总体中某一部分数值 × 100%
人口的性别比例,积累与消费比例,固定资产与流动资产的比例等社会活动中许多重大比例关系,都是通过计算比例相对数来反映事物内部各组成部分的内在联系和比例关系的 。
比较相对数:是同一时间的同类指标在不同空间对比的比值,它反映不同国家,不同地区或不同单位之间的差异程度,一般用百分数或倍数表示 。
计算公式相对指标的计算
——比较相对数注意:比较相对数与比例相对数类似,分子与分母也可以互换。两者的差别为比例相对数是同一总体的不同部分比较,而比较相对数是同类指标的不同空间比较 。
比较相对数 = 乙地区 (单位 )同一指标数值甲地区 (单位 )某指标数值
× 100%
动态相对数:是某一社会经济现象在不同时期两个数值对比的比率 。 它反映该现象在时间上的发展变化方向和程度,也称为发展速度和指数 。
计算公式相对指标的计算
——动态相对数动态相对数 =
基期指标数值报告期指标数值
× 100%
强度相对数:是两个性质不同而又有联系的指标对比的比率,它反映现象的强度,密度和普及程度,
是一种特殊形式的相对数 。
计算公式相对指标的计算
——强度相对数注意:强度相对数一般以有名数表示,如商品流转次数用单名数,次,表示,人均粮食产量用复名数,千克 /人,表示 ;也可以采用百分数、千分数等表示,如商品流通费用率用百分数表示,人口出生率用千分数表示。
强度相对数 = 另一有联系指标数值 某一指标数值 × 100%
有些强度相对数的分子和分母可以互换,形成正指标与逆指标两种计算方法 。
– 正指标数值大小与其反映的强度,密度和普及程度成正比;
逆指标的数值大小与其反映的强度,密度和普及程度成反比
[例 2.5]某地区 2000年零售商业网点为 50000个,年平均人口为 800万人,则:
零售商业网密度 =50000/800
=62.5(个 /万人 ) ( 正指标 )
零售商业网密度 =800/50000 =0.016(万人 /个 )
=160(人 /个 ) (逆指标 )
强度相对数普查
(概念要点)
1,为特定目的专门组织的非经常性全面调查
2,通常是一次性或周期性的
3,一般需要规定统一的标准调查时间
4,数据的规范化程度较高
5,应用范围比较狭窄计算和应用相对指标的原则
1,两个对比指标要有可比性
2,相对指标要与总量指标结合运用
3,各种相对指标结合运用第二节 统计数据搜集的组织形式一,普查二,抽样调查三,统计报表制度四,重点调查五,典型调查统计数据搜集的组织形式统计数据搜集的组织形式普查抽样调查统计报表重点调查典型调查抽样调查
(概念要点 )
1,从总体中随机抽取一部分单位 (样本 )进行调查
2,目的是推断总体的未知数字特征
3,最常用的调查方式
4,具有经济性、时效性强、适应面广、准确性高等特点统计表报
(概念要点 )
1,统计调查方式之一
2,过去曾经是我国主要的数据收集方式
3,按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据
4,有各种各样的类型
5,制度性:依法颁布、强制执行、制定统计报表要遵循适用与精简原则。
重点调查和典型调查
(概念要点 )
重点调查
1,一种非全面调查,它是在调查对象中只选择其中的一部分为数不多但举足轻重的 重点单位 所进行的调查。
2,重点单位:是指那些标志值在总体标志总量中占有很大的比重的单位,它能够反映出总体的基本情况 。
调查结果不能用于推断总体
典型调查
从调查对象的全部单位中选择少数典型单位进行调查
目的是描述和揭示事物的本质特征和规律
调查结果不能用于推断总体第三节 统计数据搜集的方法数据的搜集方法数据的搜集方法统计调查法 科学实验法访问调查电话调查邮寄调查电脑辅助座谈会个别深访直接观测法访问调查
(概念要点 )
1,调查者与被调查者通过面对面地交谈而获得资料
2,有标准式访问和非标准式访问
1) 标准式访问通常按事先设计好的问卷进行
2) 非标准式访问事先一般不制作问卷邮寄调查
(概念要点 )
1,也称邮寄问卷调查
2,是一种标准化调查
3,调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷
4,通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点
5,问卷或表格的发放方式有邮寄,宣传媒介传送,专门场所分发三种电话调查
(概念要点)
1,调查者利用电话与被调查者进行语言交流以获得信息
2,时效快,成本低
3,问题的数量不宜过多电脑辅助调查
(概念要点)
1,又称电脑辅助电话调查
2,电脑与电话相结合完成调查的全过程
3,一般需借助专门的软件进行
4,硬件设备要求较高座谈会
(概念要点)
1.也称集体访谈
2.将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料
3.参加座谈会的人数不宜过多,一般为 6~ 10

4.侧重于定性研究个别深度访问
(概念要点)
1,一次只有一名受访者参加,针对特殊问题的调查
2,适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题
3,侧重于定性研究直接观测法
(概念要点)
1,由调查人员深入调查现场,根据研究目的,
运用感觉器官或借助科学仪器,对调查对象进行现场直接观察,点数,计量或测量,以此获取所需数据资料的一种调查方法 。
2,如农产品抽样调查中的实割实测,商品库存盘点,车辆流量调查,旅客流量调查等都采用直接观测法 。
实验法
(概念要点)
1,在设定的特殊实验场所,特殊状态下,
对调查对象进行实验以获得所需资料
2,有室内实验法和市场实验法第四节 统计调查方案一,确定调查目的二,确定调查对象和调查单位三,设计调查项目和调查表四,调查时间和调查方法五,调查工作的组织实施计划调查方案设计
调查方案的内容调查目的调查对象调查单位调查项目和调查表调查时间调查方式调查目的
1,调查要达到的具体目标
2,回答“为什么调查?”
3,调查之前必须明确调查对象和调查单位
1,调查对象,调查研究的总体或调查范围
2,调查单位,需要对之进行调查的单位。
可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)
3,回答“向谁调查?”
调查项目和调查表
1,调查项目,调查的具体内容
2,调查表,表现调查项目的表格或问卷
3,回答,调查什么?,
Q1 …………
Q2 …………
Q3 …………
Q4 …………
调查时间,
– 统计资料所属时间
– 统计调查的时间
调查方法
– 包括资料的搜集方法和调查的组织形式
– 需要与调查对象和调查单位的实际结合使用调查时间与调查方法调查工作的组织实施计划调查工作的领导机构和办事机构;
调查人员的组织调查资料的报送办法调查前的宣传、培训、调查文件的准备工作调查经费的预算和开支办法调查方案的传达、试点及其他工作第五节 统计数据的整理与显示数据的预处理品质数据的整理与显示数值型数据的整理与显示统计表一 数据的预处理
1,数据的审核与筛选
2,数据的排序数据的审核、筛选与排序
数据的审核发现数据中的错误
数据的筛选找出符合条件的数据
数据排序发现数据的基本特征升序和降序数据的审核
(原始数据)
审核的内容
1,完整性审核
– 检查应调查的单位或个体是否有遗漏
– 所有的调查项目或指标是否填写齐全
2,准确性审核
– 检查数据是否真实反映客观实际情况,内容是否符合实际
– 检查数据是否有错误,计算是否正确等数据的审核
(原始数据)
审核数据准确性的方法
1,逻辑检查
从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象
主要用于对定类数据和定序数据的审核
2,计算检查
检查调查表中的各项数据在计算结果和计算方法上有无错误
主要用于对定距和定比数据的审核数据的审核
(第二手数据)
1,适用性审核
– 弄清楚数据的来源,数据的口径以及有关的背景材料
– 确定这些数据是否符合自己分析研究的需要
2,时效性审核
– 应尽可能使用最新的统计数据
3,确认是否必要做进一步的加工整理数据的筛选
1,对审核过程中发现的错误应尽可能予以纠正
2,当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,
需要对数据进行筛选
3,数据筛选的内容包括:
将某些不符合要求的数据或有明显错误的数据予以剔除
将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出数据的排序
(要点)
1,按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
2,排序有助于对数据检查纠错,以及为重新归类或分组等提供依据
3,在某些场合,排序本身就是分析的目的之一
4,排序可借助于计算机完成数据的排序
(方法)
1,定类数据的排序
字母型数据,排序有升序降序之分,但习惯上用升序
汉字型数据,可按汉字的首位拼音字母排列,
也可按笔画排序,其中也有笔画多少的升序降序之分
2,定距和定比数据的排序
– 递增排序:设一组数据为 X1,X2,…,XN,
递增排序可表示为,X(1)<X(2)<… <X(N)
– 递减排序可表示为,X(1)>X(2)>… >X(N)
二 品质数据的整理与显示
1,定类数据的整理与显示
2,定序数据的整理与显示定类数据的整理与显示定类数据的整理与显示
(基本问题)
1,要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的
2,对定类数据和定序数据主要是做分类整理
3,对定距数据和定比数据则主要是做分组整理
4,适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据定类数据的整理
(基本过程 )
1、列出各类别
2、计算各类别的频数
3、制作频数分布表
4、用图形显示数据

定类数据的整理
(可计算的指标 )
频 数,落在各类别中的数据个数。
频 率,某一类别数据的频数占总体单位个数的比重。
百分比,将对比的基数作为 100而计算的比值。
定类数据整理 — 频数分布表
(实例)【 例 3.6】 为研究广告市场的状况,一家广告公司在某城市随机抽取 200人就广告问题做了邮寄问卷调查
,其中的一个问题是
,您比较关心下列哪一类广告?,
1,商品广告; 2.
服务广告; 3,金融广告; 4,房地产广告; 5,招生招聘广告; 6,其他广告 。
表 2-1 某城市居民关注广告类型的频数分布广告类型 人数 (人 ) 比例 频率 (%)
商品广告服务广告金融广告房地产广告招生招聘广告其他广告
112
51
9
16
10
2
0.560
0.255
0.045
0.080
0.050
0.010
56.0
25.5
4.5
8.0
5.0
1.0
合计 200 1 100
定类数据的图示 —条形图
(条形图的制作)
1,条形图是用宽度相同的条形的高度或长短来表示数据变动的图形 。
2,条形图有单式,复式等形式 。
3,在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率 。
4,绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图 。
定类数据的图示 — 条形图
(由 Excel 绘制的条形图)
人数(人)
51
9
16
10
2
112
0 40 80 120
商品广告服务广告金融广告房地产广告招生招聘广告其他广告广告类型图 2-1 某城市居民关注不同类型广告的人数分布定类数据的图示 — 圆形图
(圆形图的制作)
1,也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形 。
2,主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用 。
3,在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,
是按各部分百分比占 3600的相应比例确定的 。
4,例如,关注服务广告的人数占总人数的百分比为
25,5 %,那么其扇形的中心角度就应为
3600× 25.5%= 91.80,其余类推 。
定类数据的图示 — 圆形图
(由 Excel 绘制的圆形图)
其他广告
1.0%房地产广告 8.0%
商品广告
56.0%
金融广告
4.5%
服务广告
25.5%
招生招聘广告
5.8%
图 2-2 某城市居民关注不同类型广告的人数构成定序数据的整理与显示定序数据的整理
(可计算的指标)
1,累计频数,将各类别的频数逐级累加
2,累计频率,将各类别的频率 (百分比 )逐级累加定序数据频数分布表
(实例 )
【 例 2.7】 在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查 300
户,其中的一个问题是:,您对您家庭目前的住房状况是否满意

1,非常不满意; 2,不满意;
3,一般; 4,满意; 5,非常满意

表 2-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数
(户 )
百分比
(%)
向上累积 向下累积户数
(户 )
百分比
(%)
户数
(户 )
百分比
(%)
非 常 不 满意不满意一般满意非常满意
24
108
93
45
30
8
36
31
15
10
24
132
225
270
300
8.0
44.0
75.0
90.0
100.0
300
276
168
75
30
100.0
92
56
25
10
合计 300 100.0 — — — —
定序数据频数分布表
(实例 )
表 2-3 乙城市家庭对住房状况评价的频数分布回答类别乙城市户数
(户 )
百分比
(%)
向上累积 向下累积户数
(户 )
百分比
(%)
户数
(户 )
百分比
(%)
非常不满意不满意一般满意非常满意
21
99
78
64
38
7.0
33.0
26.0
21.3
12.7
21
120
198
262
300
7.0
40.0
66.0
87.3
100.0
300
279
180
102
38
100.0
93.0
60.0
34.0
12.7
合计 300 100.0 — — — —
定序数据图示 — 累计频数分布图
(由 Excel 绘制的累计频数分布图)
24
300
132
225 270
0
100
200
300
400
非常不满意不满意 一般 满意 非常满意累积户数
(户)
(a)向下累积
276
168
30
300
75
0
100
200
300
400
非常不满意不满意 一般 满意 非常满意累积户数
(户)
(b)向上累积图 2-3 甲城市家庭对住房状况评价的累积频数分布定序数据的图示 — 环形图
(环形图的制作)
1,环形图中间有一个,空洞,,总体中的每一部分数据用环中的一段表示
2,环形图与圆形图类似,但又有区别
圆形图只能显示一个总体各部分所占的比例
环形图则可以同时绘制多个总体的数据系列,
每一个总体的数据系列为一个环
3,环形图可用于进行比较研究
4,环形图可用于展示定类和定序的数据品质数据的图示 — 环形图
(由 Excel 绘制的环形图)
8%
36%
31%
15%
7%
33%
26%
21%
13%
10%
非常不满意不满意一般满意非常满意图 2-4 甲乙两城市家庭对住房状况的评价三 数值型数据的整理与显示
1,数据的分组
2,数值型数据的图示
3,频数分布的类型频数分布表的编制频率 f/∑f频数 f分组 x
编制频数分布表的步骤确定组数编制频数分布表的步骤确定组距计算频数编制表格频数分布表的编制
(实例)
117 122 124 129 139 107 117
130 122 125
108 131 125 117 122 133 126
122 118 108
110 118 123 126 133 134 127
123 118 112
112 134 127 123 119 113 120
123 127 135
137 114 120 128 124 115 139
128 124 121
【 例 3,3】 某生产车间 50名工人日加工零件数如下 ( 单位:个 )。 试采用单变量值对数据进行分组 。
分组方法分组方法等距分组 异距分组单变量值分组 组距分组单变量值分组
(要点)
1,将一个变量值作为一组
2,适合于离散变量
3,适合于变量值较少的情况单变量值分组表
(实例)
表 2-4 某车间 50名工人日加工零件数分组表零件数
(个 )
频数
(人 )
零件数
(个 )
频数
(人 )
零件数
(个 )
频数
(人 )
107
108
110
112
113
114
115
117
118
1
2
1
2
1
1
1
3
3
119
120
121
122
123
124
125
126
127
1
2
1
4
4
3
2
2
3
128
129
130
131
133
134
135
137
139
2
1
1
1
2
2
1
1
2
组距分组
(要点)
1,将变量值的一个区间作为一组
2,适合于连续变量
3,适合于变量值较多的情况
4,必须遵循,不重不漏,的原则
5,可采用等距分组,也可采用不等距分组
~?
~?
~?
~?
~?
组距分组
(步骤)
1,确定组数:组数的确定应以能够显示数据的分布特征和规律为目的 。 在实际分组时,可以按 Sturges
提出的经验公式来确定组数 K
2,确定各组的组距:组距 (Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距= (最大值 - 最小值 ) ÷ 组数
3,根据分组整理成频数分布表
)2lg (
)lg (1 nK
组距分组
(几个概念)
1,下 限,一个组的最小值
2,上 限,一个组的最大值
3,组 距,上限与下限之差
4,组中值,下限与上限之间的中点值下限值 +上限值
2
组中值=
等距分组表
(上下组限重叠)
表 2-5 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 频率( %)
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计 50 100
等距分组表
(上下组限间断)
表 2-6 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 频率( %)
105~109
110~114
115~119
120~124
125~129
130~134
135~139
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计 50 100
等距分组表
(使用开口组)
表 2-7 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 频率( %)
110以下
110~114
115~119
120~124
125~129
130~134
135以上
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计 50 100
组距分组与不等距分组
(在表现频数分布上的差异)
1,等距分组
各组频数的分布不受组距大小的影响
可直接根据绝对频数来观察频数分布的特征和规律
2,不等距分组
各组频数的分布受组距大小不同的影响
各组绝对频数的多少不能反映频数分布的实际状况
需要用频数密度 ( 频数密度=频数 /组距 ) 反映频数分布的实际状况数值型数据的图示 (用 Excel作图)
分组数据 — 直方图
(直方图的制作)
1,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的 面积 来表示各组的频数分布
2,在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 (Histogram)
3,直方图下的总面积等于 1
分组数据 — 直方图
( 直方图的绘制)
频数
(人 )
15
12
9
6
3
105 110 115 120 125 130 135 140
日加工零件数 (个 )
直方图下的面积之和等于 1
图 3-5 某车间工人日加工零件数的直方图分组数据 — 直方图
(直方图与条形图的区别)
1,条形图是用条形的长度 (横置时 )表示各类别频数的多少,其宽度 (表示类别 )则是固定的
2,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义
3,直方图的各矩形通常是连续排列,条形图则是分开排列分组数据 — 折线图
(折线图的制作)
1,折线图也称频数多边形图 (Frequency polygon)
2,是在直方图的基础上,把直方图顶部的中点 (组中值 )用直线连接起来,再把原来的直方图抹掉 。
3,折线图的两个终点要与横轴相交,具体的做法是
第一个矩形的顶部中点通过竖边中点 ( 即该组频数一半的位置 ) 连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 。
折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的 。
15
12
9
6
3
105 110 115 120 125 130 135 140
日加工零件数 (个 )
频数
(人 )
折线图下的面积与直方图的面积相等!
分组数据 — 折线图
(折线图的绘制)
图 3-6 某车间工人日加工零件数的折线图未分组数据 — 茎叶图
(茎叶图的制作)
1,用于显示未分组的原始数据的分布
2,由,茎,和,叶,两部分构成,其图形是由数字组成的
3,以该组数据的高位数值作树茎,低位数字作树叶
4,对于 n(20≤n≤300)个数据,茎叶图最大行数不超过
L = [ 10 × log 10 n ]
5,茎叶图类似于横置的直方图,但又有区别
直方图可大体上看出一组数据的分布状况,但没有给出具体的数值
茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息树茎 树叶
788
022347778889
0012222333344466777889
0133445799
10
11
12
13
数据个数
3
13
24
10
茎叶图类似横置的直方图未分组数据 — 茎叶图 (茎叶图的制作)
图 3-7 某车间工人日加工零件数的茎叶图未分组数据 — 茎叶图 (扩展的茎叶图)
树茎 树叶
10s
10.
11*
11t
11f
11s
11.
12*
12t
12f
12s
12.
13*
12t
13f
13s
13.
7
8 8
0
2 2 3
4 5
7 7 7
8 8 8 9
0 0 1
2 2 2 2 3 3 3 3
4 4 4 5 5
6 6 7 7 7
8 8 9
0 1
3 3
4 4 5
7
9 9
树茎 树叶
10*
10.
11*
11.
12*
12.
13*
13.
7 8 8
0 2 2 3 4
5 7 7 7 8 8 8 9
0 0 1 2 2 2 2 3 3 3 3 4 4 4
5 5 6 6 7 7 7 8 8 9
0 1 3 3 4 4
5 7 9 9
图 3-8 图 3.7扩展后的茎叶图未分组数据 — 箱线图
(箱线图的制作)
1,用于显示未分组的原始数据或分组数据的分布
2,箱线图由一组数据的 5个特征值绘制而成,它由一个箱子和两条线段组成
3,其绘制方法是:
首先找出一组数据的 5个特征值,即 最大值,最小值,中位数 Me 和两个 四分位数 (下四分位数 QL
和上四分位数 QU)
连接两个四分 ( 位 ) 数画出箱子,再将两个极值点与箱子相连接未分组数据 — 单批数据箱线图
(箱线图的构成)
中位数
4 6 8 10 12
QUQL X最大值X最小值图 3-9 简单箱线图未分组数据 — 单批数据箱线图
(实例)
最小值
107
最大值
139
中位数
123
下四分位数
117.75
上四分位数
128
105 110 115 120 125 130 135 140
图 3-10 50名工人日加工零件数的箱线图分布的形状与箱线图对称分布
QL 中位数 QU
左偏分布
QL 中位数 QU
右偏分布
QL 中位数 QU
图 3-11 不同分布的箱线图未分组数据 — 多批数据箱线图
(实例)
【 例 3.4】 从某大学经济管理专业二年级学生中随机抽取 11人,对 8
门主要课程的考试成绩进行调查,所得结果如表 3-8。 试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征表 3-8 11名学生各科的考试成绩数据课程名称学生编号
1 2 3 4 5 6 7 8 9 10 11
英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础
76
65
93
74
68
70
55
85
90
95
81
87
75
73
91
78
97
51
76
85
70
92
68
81
71
74
88
69
84
65
73
95
70
78
66
90
73
78
84
70
93
63
79
80
60
87
81
67
86
91
83
77
76
90
70
82
83
82
92
84
81
70
69
72
78
75
78
91
88
66
94
80
85
71
86
74
68
79
62
81
81
55
78
70
75
68
71
77
未分组数据 — 多批数据箱线图
(由 STATIATICA绘制的多批数据箱线图 )
图 3-12 8门课程考试成绩的箱线图
M i n - M a x
2 5 % - 7 5 %
M e d i a n v a l u e
45
55
65
75
85
95
1 0 5
英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础图 3-13 11名学生 8门课程考试成绩的箱线图
Min-Max
25%-75%
Median value
45
55
65
75
85
95
105
学生 1
学生 2
学生 3
学生 4
学生 5
学生 6
学生 7
学生 8
学生 9
学生 10
学生 11
未分组数据 — 箱线图
(由 STATIATICA绘制的多批数据箱线图 )
时间序列数据 — 线图
(线图的制作)
绘制线图时应注意以下几点
1,时间一般绘在横轴,指标数据绘在纵轴
2,图形的长宽比例要适当,其长宽比例大致为 10,7
3,一般情况下,纵轴数据下端应从,0” 开始,以便于比较 。 数据与,0” 之间的间距过大时,可以采取折断的符号将纵轴折断时间序列数据 — 线图
(实例)
【 例 3.5】 已知
1991~ 1998年我国城乡居民家庭的人均收入数据如表 3-
11。试绘制线图


表 3-11 1991~ 1998年城乡居民家庭人均收入年份 城镇居民 农村居民
1991
1992
1993
1994
1995
1996
1997
1998
1700.6
2026.6
2577.4
3496.2
4283.0
4838.9
5160.3
5425.1
708.6
784.0
921.6
1221.0
1577.7
1926.1
2091.1
2162.0
时间序列数据
(由 Excel 绘制的线图)
0
2000
4000
6000
1991 1992 1993 1994 1995 1996 1997 1998
城镇居民农村居民收入
(元)
图 3-14 城乡居民家庭人均收入
1,雷达图 ( Radar Chart) 是显示多个变量的常用图示方法
3,在显示或对比各变量的数值总和时十分有用
4,假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比
5,可用于研究多个样本之间的相似程度多变量数据 — 雷达图
(要点)
设有 n组样本 S1,S2,… Sn,每个样本测得 P个变量 X1,X2,Xp,要绘制这 P个变量的雷达图,其具体做法是多变量数据 — 雷达图
(雷达图的制作)
先做一个圆,然后将圆 P等分,得到 P个点,令这 P个点分别对应 P个变量,在将这 P个点与圆心连线,得到 P个幅射状的半径,这 P个半径分别作为 P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示
再将同一样本的值在 P个坐标上的点连线 。 这样
,n个样本形成的 n个多边形就是一个雷达图多变量数据 — 雷达图
(实例)
【 例 3.6】 1997年我国城乡居民家庭平均每人各项生活消费支出数据如表 3-12。 试绘制雷达图 。
表 3-12 1997年城乡居民家庭平均每人生活消费支出项 目 城镇居民 农村居民食品衣着家庭设备用品及服务医疗保健交通通讯娱乐教育文化服务居住杂项商品与服务
1942.59
520.91
316.89
179.68
232.90
448.38
358.64
185.65
890.28
109.41
85.41
62.45
53.92
148.18
233.23
34.27
合 计 4185.64 1617.15
0
500
1000
1500
2000 食品衣着家庭设备用品及服务医疗保健交通通讯娱乐教育文化服务居住杂项商品与服务城镇居民农村居民图 3-15 1997年城镇居民家庭消费支出
(元)
多变量数据 — 雷达图
(由 Excel 绘制的雷达图)
多变量数据 — 雷达图
(实例)
【 例 3.7】 为研究某条河流的污染程度
,环保局分别在上游,中游和下游设立取样点,每个取样点化验水中的五项污染指标,所得数据如表 3-13。 将各指标用雷达图表示出来,并分析该河流的主要污染源 。
表 3-13 不同样本点的化验指标指标 1 指标 2 指标 3 指标 4 指标 5
上游中游下游
4.52
0.34
2.17
5.0
1.4
6.8
483
36
208
196
41
112
14
6
35
多变量数据 — 雷达图
(由 Excel 绘制的对数坐标雷达图)
0.1
1
10
100
1000指标
1
指标 2
指标 3指标 4
指标 5
上游中游下游图 3-16 河流污染指标雷达图数据类型及图示
(小结)
数据类型与显示数值型数据品质数据分组数据总计表茎叶图条形图圆形图环形图直方图箱线图折线图原始数据 时序数据线图雷达图多元数据频数分布的类型频数分布的类型对称分布 右偏分布 左偏分布正 J型分布 反 J型分布 U型分布图 3-17 几种常见的频数分布四 统计表一,统计表的构成二,统计表的设计统计表的结构表 3-14 1997~ 1998年城镇居民家庭抽样调查资料项目 单位 1997年 1998年一、调查户数二、平均每户家庭人口数三、平均每户就业人口数四、平均每人全部收入五、平均每人实际支出
#消费性支出非消费性支出六、平均每人居住面积户人人元元元元平方米
37890
3.19
1.83
5188.54
4945.87
4185.64
755.94
11.90
39080
3.16
1.80
5458.34
5322.95
4331.61
987.17
12.40
资料来源:,中国统计摘要 1999》,中国统计出版社,1999,第 79页。
注,1.本表为城市和县城的城镇居民家庭抽样调查材料。
2.消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。
行标题表头列标题数字资料附加
1,要合理安排统计表的结构
2,总标题内容应满足 3W要求
3,数据计量单位相同时,可放在表的右上角标明,
不同时应放在每个指标后或单列出一列标明
4,表中的上下两条横线一般用粗线,其他线用细线
5,通常情况下,统计表的左右两边不封口
6,表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一
7,对于没有数字的表格单元,一般用,—,表示
8,必要时可在表的下方加上注释统计表的设计