2005/07 版权:马如武 精品课程:统计基础(经济管理系)
精品课程
,统计基础,
经济管理系课题组
版权所有:马如武 王桂芳
? 第 3章 统计数据的整理与显示
? 【 学习目标 】
? 本章主要介绍了统计整理是统计调查的继续,又是统计分
析的前提。介绍了统计整理的概念和内容,统计分组的方
法,分配数列的概念、种类以及编制分配数列的基本步骤。
统计资料汇总的组织形式和具体方法。
? 【 基本要求 】
? 学习本章内容,要求学习者注意统计资料整个工作过程
的有关问题,掌握统计资料整理的程序、步骤和方法,绘
制统计图,编制统计表。
? 通过各种渠道将统计数据搜集上来之后,首先应对这些数
据进行加工整理,使之系统化、条理化,以符合分析的需
要。通过整理可以大大简化数据,使我们更容易理解和分
析。数据整理通常包括数据的预处理、分类或分组、汇总
等几个方面的内容,它是统计分析之前的必要步骤。
? 【 学习内容 】
? 3.1 数据的预处理
? 数据的预处理是数据整理的先前步骤,是在对数据分类或分组之前所 做的必要处理,包括数据的审核、筛选、排序等。
? 3.1.1数据的审核与筛选
? 在对统计数据进行整理时,首先要进行审核,以保证数据的质量,为
进一步的整理与分析打下基础。从不同渠道取得的统计数据,其审核
内容和方法有所不同,不同类型的统计数据在审核内容和方法上也有 所差异。
? 对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方 面去审核。
? 3.1.2,数据的排序
? 数据排序是按一定顺序将数据排列,以便于研究者通过游览数据发现
一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有 助于对数据检查纠错,为重新归类或分组等提供依据。
? 3.2 品质数据的整理与显示
? 数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理
时,首先要弄清数据的类型,因为对于不同类型的数据所采取的处理
方式和所适用的处理方法是不同的。对品质数据主要是做分类整理,
对数值型数据则主要是做分组整理。
? 3.2.1 定类数据的整理与显示
? 1,频数与频数分布
? ( 1)频数( Frequency)。频数也称次数,是落在各类别中的数据个
数。我们把各个类别及其相应的频数全部列出来就是频数分布或称次 数分布( Frequency distribution)。将频数分布用表格的形式表现出
来就是频数分布表。
? (2)比例( Proportion)。比例是一个总体中各个部分的数量占总体数
据的比重,通常用于反映总体的构成或结构。
? (3)百分比( Percentage)
? (4)比率( Ratio)。比率是各不同类别的数量的比值。
? 2,定类数据的图示
? (1)条形图( Bar chart)。条形图是用宽度
相同的条形的高度或长短来表示数据变动
的图形。条形图可以横置或纵置,纵置时
也称为柱形图。条形图有单式、复式等形
式。
人数(人)
0 40 80 120
商品广告
服务广告
金融广告
房地产广告
招生招聘广告
其他广告
广



2
10
16
9
51
112
? (2)圆形图( Pie
chart)。圆形图也称
饼图,是用圆形及圆
内扇形的面积来表示
数值大小的图形。圆
形图主要用于表示总
体中各组成部分所占
的比例,对于研究结
构性问题十分有用。
商品广告
55%
服务广告
26%
金融广告
5%
其他广告
1%
招生招聘广告
5%
房地产广告
8%
? 3.2.2,定序数据的数理与显示
? 1,累积频数和累积频率
? (1)累积频数( Cumulative frequencies)。就是
将各类别的频数逐级累加起来。其方法有两种:
一是从类别顺序的开始一方向类别顺序的最后一
方累加频数(定距数据和定比数据则是从变量值
小的一方向变量值大的一方累加频数),称为向
上累积;二是从类别顺序的最后一方向类别顺序
的开始一方累加频数(定距数据和定比数据则是
从变量值大的一方向变量值小的一方累加频数),
称为向下累积。
? (2)累积频率或百分比( Cumulative
percentages)。就是将各类别的百分比逐级累加
起来,也有向上累积和向下累积两种方法。
? 2,定序数据的图示
? (1)累积频数分布图。
根据累积频数或累积
频率,可以绘制累积
频数或频率分布图。
24
132
225
270
300
0
100
200
300
非常不满意
不满意
一般 满意
非常满意
(a)向上累计


户数
(户 )
( b ) 向下累计
300
276
168
75
30
0
100
200
300
非常不满意
不满意
一般 满意
非常满意
累计户数(
户)
? (2)环形图。环形图与圆形
图类似,但又有区别。环形
图中间有一个“空洞”,总
体中的每一部分数据用环中
的一段表示。圆形图只能显
示一个总体各部分所占的比
例,而环形图则可以同时绘
制多个总体的数据系列,每
一个总体的数据系列为一个
环。因此环形图可以显示多
个总体各部分所占的相应比
例,从而有利于进行比较研
究。
8%
36%
31%
15%
10%
7%
33%
26%
21%
13%
非常不满意
不满意
一般
满意
非常满意
? 3.3 数值型数据的整理与显示
? 3.3.1 数据的分组
? 数值型数据包括定距数据和定比数据,在整理时
通常要进行数据分组,就是根据统计研究的需要,
将数据按照某种标准化分成不同的组别。分组后
再计算出各组中出现的次数或频数,就形成了一
张频数分布表。
? 1,单变量值分组
? 单变量值分组是把每一个变量值作为一组,这种
分组方法通常只适合于离散变量且变量值较少的
情况。
试采用单变量值对数据进行分组
117 122 124 129 139 107 117 130 122
108 131 125 117 122 133 126 122 118
110 118 123 126 133 134 127 123 118
112 134 127 123 119 113 120 123 127
137 114 120 128 124 115 139 128 124
为便于分组,可先对上面的数据进行排序,结果如下
107 108 108 110 112 112 113 114 115
117 117 118 118 118 119 120 120 121
122 122 122 123 123 123 123 124 124
125 125 126 126 127 127 127 128 128
130 131 133 133 134 134 135 137 139
采用单变量值分组形成的频数分布表如表 3 – 4 所示
零件数
(个)
频数(人) 零件数
(个)
频数(人) 零件数
(个)
频数(人)
107 1 119 1 128 2
108 2 120 2 129 1
110 1 121 1 130 1
112 2 122 4 131 1
113 1 123 4 133 2
114 1 124 3 134 2
115 1 125 2 135 1
? 2,组距分组
? 在连续变量或变量值较多的情况下,可采用组距分组,它
是将全部变量值依次划分为若干个区间,并将这一区间的
变量值作为一组。在组距分组中,一个组的最小值称为下
限( Low limit),最大值称为上限( Upper limit)。采用
组距分组需要经过以下几个步骤:
? 第一步:确定组数。
? 第二步:确定各组的组距。组距( Class width)是一个组
的上限与下限之差,可根据全部数据的最大值和最小值及
所分的组数来确定,即组距=(最大值-最小值) ÷ 组数。
例如,对于例 3–3的数据,最大值为 139,最小值为 107,
则组距=( 139- 107) ÷ 7= 4.6为便于计算,组距宜取 5
或 10的倍数,而且第一组的下限应低于最小变量,最后一
组的上限应高于最大变量值,因此组距可取 5。
? 第三步:根据分组整理成频数分布表。比如对上面的数据
进行分组,可得到下面的频数分布表。见表 3–5。
按零件数
分组
(个)
频数
(人)
频率
(%)
105 ~ 110 3 6
110 ~ 115 5 10
115 ~ 120 8 16
120 ~ 125 14 28
125 ~ 130 10 20
130 ~ 135 6 12
135 ~ 140 4 8
表 3 - 5 某车间 50 名工人日加工零件数分组表
? 3.3.2 定距数据和定
比数据的图示
? 1,分组数据 ——直方
图和折线图
? (1)直方图
( Histogram)。直
方图是用矩形的宽度
和高度来表示频数分
布的图形。
105 110 115 120 125 130 135 140
15 30
12 24
9 18
6 12
3 6
0
%


(人 )
日加工零件数 (个 )
? (2)折线图。折线图
也称频数多边形图
( Frequency
polygon)。在直方
图的基础上,把直
方图顶部的中点
(即组中值)用直
线连续起来,再把
原来的直方图抹掉
就是折线图。
105 110 115 120 125 130 135 140
15 30
12 24
9 18
6 12
3 6
0
%
频数
(人 )
日加工零件数 (个 )
? 2,未分组数据 ——茎叶图
? 未分组数据 ——茎叶图通过直方图可以大体上看出
一组数据的分布状况,但直方图没有给出具体的数
值。下面介绍的茎叶图( Stem-and-leaf display),
既能给出数据的分布状况,又能给出每一个原始数
值。茎叶图由“茎”和“叶”两部分构成,其图形
是由数字组成的。通过茎叶图,可以看出数据的分
布形状及数据的离散状况,比如,分布是否对称,
数据是否集中,是否极端值等等。
? 绘制茎叶图的关键是设计好树茎,通常是以该组数
据的高位数值作为树茎。树茎一经确定,树叶就自
然地长在相应的树茎上了。
树茎 树叶
10 7 8 8 3
11 13
12 24
13 10
树茎 树叶
10 *
10 · 7 8 8
11 * 0 2 2 3 4
11 ·
12 *
12 ·
13 * 0 1 3 3 4 4
13 · 5 7 9 9
0 2 2 3 4 5 7 7 7 8 8 8 9
0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9
5 5 6 6 7 7 7 8 8 9
0 1 3 3 4 4 5 7 9 9
0 0 1 2 2 2 2 3 3 3 3 4 4 4
5 7 7 7 8 8 8 9
? 3,时间序列数据 ——线图
? 如果定距数据和定比数据是在不同时间上
取得的,即时间序列数据,还可以绘制线
图。线图是在平面坐标上用折线表现数量
变化特征和规律的统计图。线图主要用于
显示时间序列数据,以反映事物发展变化
的规律和趋势。
? 例 3–4 1991- 1998年我国城乡居民家庭的
人均收入数据如表 3–8,试绘制线图。
年 份 城镇居民 农村居民
1991 1 700.6 708.6
1992 2 026.6 784
1993 2 557.4 921.6
1994 3 496.2 1 221.0
1995 4 283.0 1 577.7
1996 4 838.9 1 926.1
1997 5 160.3 2 091.1
表 3 – 8 19 91 - 1998 年城乡居民家庭人均收入 单位:元
?
根据上表数据绘制的线图如图 3–9
所示。
? 从图 3–9可以清楚地看出,城乡居
民的家庭人均收入逐年提高,而且
城镇居民的家庭人均收入高于农村,
1993年以后这种差距有扩大的趋势。
? 绘制线图时应注意以下几点:
( 1)时间一般绘在横轴,指标数
据绘在纵轴。( 2)图形的长宽比
例要适当,一般应绘成横轴略大于
纵轴的长方形,其长宽比例大致为
10:7。图形过扁或过于瘦高,不仅
不美观,而且会给人造成视觉上的
错觉,不便于对数据变化的理解。
( 3)一般情况下,纵轴数据下端
应从 0开始,以便于比较。数据与 0
之间的间距过大,可以采取折断的
符号将纵轴折断。
0
2000
4000
6000
1991 1992 1993 1994 1995 1996 1997 1998
图3 -9 城乡居民家庭人均收入
收入(元)
城镇居民 农村居民
? 3.3.3 频数
分布的类型
? 在日常生活
和经济管理
中,常见的
频数分布曲
线主要有正
态分布、偏
态分布,J
形分布,U
形分布等几
种类型,如

(a)正态分布 (b)偏态分布
正偏 (右偏 ) 负偏 (左偏 )
(c)J形分布
正 J形 反 J形
(d)U形分布
? 3.4 统计表
? 3.4.1,统计表的作用
? 统计表是统计用数字说话的一种最常用的形式。把搜集到的数字资料,
经过汇总整理后,得出一些系统化的统计资料,将其按一定顺序填列 在一定的表格内,这个表格就是统计表。统计表有以下几方面作用:
? 1.能使大量的统计资料系统化、条理化,因而能更清晰地表述统计
资料的内容。
? 2.利用统计表便于比较各项目(指标)之间的关系,而且也便于计
算。
? 3.采用统计表表述统计资料显得紧凑、简明、醒目,使人一目了然。
? 4.利用统计表易于检查数字的完整性和正确性。
? 统计表既是调查整理的工具,又是分析研究的工具,广义的统计表包
括统计工作各个阶段中所用的一切表格,如调查表、整理表、计算表 等,它们都是用来提供统计资料的重要工具。
? 3.4.2,统计表的构成
? 统计表的形式多种多样,根据使用者的要
求和统计数据本身的特点,可以绘制形式
多样的统计表。比如,表 3–9就是一种比较
常见的统计表。
表 3 – 9 1 9 9 7 - 1998 年城镇居民家庭抽样调查资料 *
项 目 单位 1997 年 1998 年 } 列标题
一、调查 户 3 7 8 9 0 3 9 0 8 0
二、平均 人 3, 1 9 3, 1 6, 0 1 1, 8 0
三、平均 人 1, 8 3 5 4 5 8, 3 4
四、平 元 5 4 5 8, 3 4 5 3 2 2, 9 5
五、平 元 5 3 2 2, 9 5 4 3 3 1, 6 1
消 元 4 3 3 1, 6 1 9 8 7, 1 7
非 元 9 8 7, 1 7 1 2, 4
六,平 m
2
1 2, 4
主词 宾 词
资料来源:《中国统计摘要 1999,,79 页,北京,中国统计出版社,1999 。
* 本表为城市和县城的城镇居民家庭抽样调查材料。 附
* * 消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗保健,加
交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。







? 从统计表的内容上看,可以分为主词和宾词两个
部分。主词是统计表所要说明的总体,它可以是
各个总体单位的名称,总体的各个组成是总体单
位的全部。宾词是说明总体的统计指标,包括指
标名称和指标数值。
? 3.4.3,统计表的种类
? 1,按主词加工方法不同分为
? ( 1)简单表。表的主词未经任何分组的统计表为
简单表。简单表的主词一般按时间顺序排列,或
按总体各单位名称排列。通常是对调查来的原始
资料初步整理所采用的形式,如表 3–10,即为按
总体各单位名称排列的简单表。
表 3 – 10 1999 年国际旅游收入居世界前十名的国家
国 家 位次 旅游收入收
入(亿美
元)
占世界比重
(%)
美国 1 730 16
西班牙 2 315 6.9
意大利 3 310 6.8
法国 4 307 6.7
英国 5 209.7 4.6
德国 6 165 3.6
中国 7 141 3.1
奥地利 8 112 2.5
加拿大 9 102.8 2.3
? ( 2)分组表。表的主词按照某一标志进行分组的统
计表称为分组表。利用分组表可以提示不同类型现
象的特征,说明现象内部的结构,分析现象之间的
相互关系等,如表 3- 11所示。
表 3 – 1 1 1 9 9 8 年某公司所属两企业自行车合格品数量表
厂 别
甲 厂
乙 厂
合 计
合格品数量(辆)
5 000
7 000
12 000
? ( 3)复合表。表的主词按照两个或两个以上标志进行复合
分组的统计表称为复合表。如表 3–12所示。复合表能更深
刻更详细地反映客观现象,但使用复合表恰如其分,并不
是分组越细越好。因为复合表中多进行一次分组,组数将
成倍增加,分组太细反而不利于研究现象的特征。 人口数 / 万人 比例 / %
男 64 189 50.98
女 61 720 49.02
市镇 38 892 30.89
乡村 87 017 69.11
资料来源:《中国统计年鉴( 2000 )》第 95 页
按性别分
按城乡分
表 3 – 12 1999 年我国人口数及构成
? 2,按宾词指标设计的不同分类
? ( 1)宾词不分组设计
? 即宾词各指标根据说明问题的主次先后顺序排列,
保持各指标之间的一定逻辑关系。如表 3–13所示。
地区 饭店数 / 座
营业收入 / 万

利润总额 / 万

客房出租率
/ %
北京 338 1 4 4 7 9 0 5,7 2 1 7 5 1 3 2,6 8 5 9,3 7
上海 127 6 9 9 1 4 3,8 6 6 8 5 9 2,2 8 6 2,5 8
云南 190 1 0 2 8 8 4,3 7 1 0 4 4,0 9 5 5,1 9
表 3 – 1 3 1 9 9 7 年全国部分省市旅游涉外饭店基本情况
资料来源:《中国旅游统计年鉴( 1998 )》
? ( 2)宾词简单分组设计
? 即统计指标从不同角度分别按某一标志分组,各
种分组平行排列。如表 3–14所示。
男 女 小学 中学 大学
一线人员 638 290 348 254 308 76
二线人员 334 108 226 118 176 40
合 计 972 398 574 372 484 116
表 3 – 1 4 某企业职工性别及文化程度情况
职工总人数 /

性别 文化程度
? ( 3)宾词复合分组设计
? 即统计指标同时有层次地按两个或两个以上标志分
组,各种分组重叠在一起。如表 3—15 所示
男 女 男 女 小计 男 女 小计
一线人数 290 348 110 144 254 138 170 308
二线人数 108 226 28 90 118 64 112 176
合 计 398 574 138 234 372 202 282 484
表 3 — 1 5 某企业职工性别及文化程度情况
职工人数 小学 中学
? 3.4.4,统计表的设计要求
? 由于使用者的目的以及统计数据的特点不同,统计表的设计在形式和结
构上会有较大差异,但设计上的基本要求则是一致的。总体上看,统计表
的设计应符合科学、实用、简练、美观的要求。具体来说,设计统计表时
要注意以下几点。
? 第一,要合理安排统计表的结构,比如行标题、列标题、数字资料的位置 应安排合理
? 第二,表头一般应包括表号、总标题和表中数据的单位等内容
? 第三,如果表中的全部数据都是同一计量单位,可放在表的右上角标明,若各指标的计量单位不同,则应放在每个指标后或单列出一列标明
? 第四,表中的上下两条线一般用粗线,中间的其他线要用细线,这样使人 看起来清楚、醒目
? 第五,在使用统计表时,必要时可在表的下方加上注释,特别要注意注明 资料来源,以表示对他人劳动成果的尊重,方便读者查阅使用。
? 实训练习
? 【 关键名词 】
? 统计资料整理 统计分组 分组标志 复合分组
? 分配数列 组距数列 变量数列 频数
? 简单分组 频指数列 频率
?
? 【 讨论与思考 】
? 1.数据的预处理包括哪些内容?
? 2.定类数据和定序数据的整理和图示方法各有哪些?
? 3.定距数据和定比数据的分组方法有哪些?简述组距分
组的步骤。
? 4.直方图与条形图有何区别?
? 5.统计表由哪几个主要部分组成?
? 6.制作统计表应注意哪几个问题?
? 【 技能训练 】
? 其中,在 1998年的国内生产总值中,第一
产业为 14298.8亿元,第二产业为 39149.8
亿元,第三产业为 26104.4亿元。
? 要求:( 1)根据 1990–2001年的国内生
产总值数据,利用 Excel软件绘制线图和
条形图;
? ( 2)根据 1998年的国内生产总值及其构
成数据,绘制圆形图和环形图。
? 3.某年对冶金行业的高炉有效容积调查
结果为(单位:立方米):
? 72,82,65,1900,2100,300,520,
400,100,1100,1600,800,320,
1200,2600,500,175,1110,660,
420,800,720,97,240,200,870,
200,100,1760,410,900,700,400,
150,250,400,1600,900,200,800
? 试根据上述数据分成以下几组,100以下,
100–200,200–400,400–800,800–
1600,1600以上,并绘制频数(率)分
布图表。
41 25 29 47 38 34 30 38 43
46 36 45 37 37 36 45 43 33
35 28 46 34 30 37 44 26 38
42 36 37 37 49 39 42 32 36
1,某百货公司连续 40 天的商品销售额(单位:万元)
要求:根据上面的数据进行适当分组,编制频数分布表,并绘制直方图
2,已知 1990 – 2001 年我国的国内生产总值数据如表 2
年份
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
国内生产总值(亿元)
18548
21618
26638
34634
46759
58478
67884
95533
74463
79553
81911
89404