第3章 统计数据的整理与显示
【学习目标】
本章主要介绍了统计整理是统计调查的继续,又是统计分析的前提。介绍了统计整理的概念和内容,统计分组的方法,分配数列的概念、种类以及编制分配数列的基本步骤。统计资料汇总的组织形式和具体方法。
【基本要求】
学习本章内容,要求学习者注意统计资料整个工作过程的有关问题,掌握统计资料整理的程序、步骤和方法,绘制统计图,编制统计表。
通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行加工整理,使之系统化、条理化,以符合分析的需要。通过整理可以大大简化数据,使我们更容易理解和分析。数据整理通常包括数据的预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的必要步骤。
【学习内容】
3.1 数据的预处理
数据的预处理是数据整理的先前步骤,是在对数据分类或分组之前所做的必要处理,包括数据的审核、筛选、排序等。
3.1.1数据的审核与筛选
在对统计数据进行整理时,首先要进行审核,以保证数据的质量,为进一步的整理与分析打下基础。从不同渠道取得的统计数据,其审核内容和方法有所不同,不同类型的统计数据在审核内容和方法上也有所差异。
对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据准确性的方法主要有逻辑检查和计算检查。逻辑检查主要是从定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。比如中学文化程度的人所填的职业是大学教师,对于这种违背逻辑的项目应予以纠正。逻辑检查主要用于对定类数据和定序数据的审核。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。比如各分项数字之和是否等于相应的合计数,各结构比例之和是否等于1或100%,出现在不同表格上的同一指标数值是否相同,等等。计算检查主要用于对定距数据和定比数据的审核。
对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应首重审核数据的适用性和时效性。第二手数据可以来自多种渠道,有些数据可能是为特定目的通过专门调查而取得的,或者是已经按特定目的的需要做了加工整理。对于使用者来说,首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,还要对数据的时效性进行审核,有些时效性较强的问题,如果所取得的数据过于滞后,就失去了研究的意义。一般来说,应尽可能使用最新的统计数据。数据经过审核后,确认适合实际需要,才有必要做进一步的加工整理。
对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。数据的筛选在市场调查中是十分重要的。
3.1.2. 数据的排序
数据排序是按一定顺序将数据排列,以便于研究者通过游览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提供依据。在某些场合,排序本身就是分析的目的之一。例如,了解究竟谁是中国家电生产的三巨头,对于家电厂商而言是很有用的信息。美国的《财富》杂志每年都要排出世界500强企业,通过这一信息,经营者不仅可以了解自己企业所处的地位,清楚自己的差距,还可了解到竞争对手的状况,从而有效制定企业发展的规划和战略目标。
对于定类数据,如果是字母型数据,排序有升序与降序之分,但习惯上升序使用得更普遍,因为升序与字母的自然排列相同;如果是汉字型数据,排序方式很多,比如按汉字的首位拼音字母排列,这与字母型数据的排序完全一样,也可按笔画排序,其中也有笔画多少的升序降序之分。交替运用不同方式排序,在汉字型数据的检查纠错过程中十分有用。
定距数据和定比数据的排序只有两种,即递增和递减。设一组数据为X1,X2,…XN,递增排序后可表示为:X(1)<X(2)<…<X(N);递减排序可表示为:X(1)>X(2)>…>X(N)。排序后的数据也称为顺序统计量(Order statistics)。无论是品质数据还是数值型数据,排序均可借助于计算机完成。
3.2 品质数据的整理与显示
数据经过预处理后,可进一步做分类或分组整理。在对数据进行整理时,首先要弄清数据的类型,因为对于不同类型的数据所采取的处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整理,对数值型数据则主要是做分组整理。
3.2.1 定类数据的整理与显示
定类数据本身就是对事物的一种分类,因此,在整理时除了要列出所分的类别外,还要计算出每一类别的频数、频率或比例、比率,同时选择适当的图形进行显示,以便对数据及其特征有一个初步的了解。
1. 频数与频数分布
(1)频数(Frequency)。频数也称次数,是落在各类别中的数据个数。我们把各个类别及其相应的频数全部列出来就是频数分布或称次数分布(Frequency distribution)。将频数分布用表格的形式表现出来就是频数分布表。
例3–1 为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”
a 商品广告;b. 服务广告;c. 金融广告;d. 房地产广告;e. 招生招聘广告;f. 其他广告。
这里的变量就是“广告类别”,不同类型的广告就是变量值。调查数据经分类整理后形成频数分布表。见表3–1。
表3-1 某城市居民关注广告类型的频数分布表
广告类型
人数(人)
比例
频率(%)
商品广告
服务广告
金融广告
房地产广告
招生招聘广告
其他广告
112
51
9
16
10
2
0.560
0.255
0.045
0.080
0.050
0.010
56.0
25.5
4.5
8.0
5.0
1.0
合 计
200
1
100
很显然,如果不做分类整理,观察200个人对不同广告的关注情况,既不便于理解,也不便于分析。经分类整理后,可以大大简化数据,很容易看出关注“商品广告”的人数最多,而关注“其他广告”的人数最少。
(2)比例(Proportion)。比例是一个总体中各个部分的数量占总体数据的比重,通常用于反映总体的构成或结构。假定总体数量N被分成K个部分,每一部分的数量分别为N1,N2,…NK,则比例定义为。显然,各部分的比例之和等于1,即
比例是将总体中各个部分的数值都变成同一个基数,也就是都以1为基数,这样就可以对不同类别的数值进行比较了。比如,在上面的例子中,关注金融广告和招生招聘广告的人数比例差不多相同。
(3)百分比(Percentage)。将比例乘以100就是百分比或百分数,它是将对比的基数抽象化为100而计算出来的,用%表示,它表示每100个分母中拥有多少个分子。比如在上面的例子中,频率一档就是将比例乘以100而得到的百分比。百分比是一个更为标准化的数值,很多相对数都用百分比表示。当分子的数值很小而分母的数值很大时,也可以用千分数(‰)来表示比例,如人口的出生率、死亡率、自然增长率等都可用千分数来表示。
(4)比率(Ratio)。比率是各不同类别的数量的比值。它可以是一个总体中各不同部分的数量对比,比如在上面的例子中,关注商品广告的人数与关注服务广告人数的比率是112:51。为便于理解,通常将分母化为1。比如,关注商品广告和关注服务广告人数的比率是2.2:1。
由于比率不是总体中部分与整体之间的对比关系,因而比值可能大于1。为方便起见,比率可以不用1作为基数,而用100或其他便于理解的数作基数。比如,人口的性别比就用每100名女性人口所对应的男性人口来表示,如性别比为105:100,表示每100个女人对应105个男人,说明男性人口数量略多于女性人口。
在经济和社会问题的研究中,经常使用比率。比如经济学中的积累与消费之比,国内生产总值中第一、二、三产业产值之比,等等。比率也可以是同一现象在不同时间或空间上的数量之比,比如将2001年的国内生产总值与2000年的国内生产总值进行对比,可以得到经济增长率;将一个地区的国内生产总值同另一个地区的国内生产总值进行对比,反映两个地区的经济发展水平差异,等等。
2. 定类数据的图示
上面我们是用频数分布表示反映分类数据的频数分布。如果用图形来显示频数分布,就会更加形象和直观。一张好的统计图表,往往胜过冗长的文字表述。统计图的类型有很多,多数统计图除了可以绘制二维平面图外,还可以绘制三维立体图。图形的制作均可由计算机来完成。这里首先介绍反映定类数据的图示方法,其中包括条形图和圆形图。如果两个总体或两个样本的分类相同且问题可比时,还可以绘制环形图。
(1)条形图(Bar chart)。条形图是用宽度相同的条形的高度或长短来表示数据变动的图形。条形图可以横置或纵置,纵置时也称为柱形图。条形图有单式、复式等形式。例如,根据表3–1数据绘制的条形图如图3–1所示。
(2)圆形图(Pie chart)。圆形图也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形。圆形图主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度是按各部分百分比占360°的相应比例确定的。例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360°×25.5%=91.8°,其余类推。
根据表3–1数据绘制的圆形图如图3–2所示。
图3–1 某城市居民关注不同类型广告的人数分布
图3–2 某城市居民关注不同类型广告的人数构成
3.2.2. 定序数据的数理与显示
前面介绍的定类数据的整理与显示方法,如频数、比例、百分比、比率、条形图和圆形图等,也都适用于对定序数据的整理与显示。但有些方法适用于对定序数据的整理与显示,却不适用于定类数据。对于定序数据,除了可使用上面的整理与显示技术外,还可以计算累积频数和累积频率(百分比)。
1. 累积频数和累积频率
(1)累积频数(Cumulative frequencies)。就是将各类别的频数逐级累加起来。其方法有两种:一是从类别顺序的开始一方向类别顺序的最后一方累加频数(定距数据和定比数据则是从变量值小的一方向变量值大的一方累加频数),称为向上累积;二是从类别顺序的最后一方向类别顺序的开始一方累加频数(定距数据和定比数据则是从变量值大的一方向变量值小的一方累加频数),称为向下累积。通过累积频数,可以很容易看出某一类别(或数值)以下及某一类别(或数值)以上的频数之和。
(2)累积频率或百分比(Cumulative percentages)。就是将各类别的百分比逐级累加起来,也有向上累积和向下累积两种方法。
例3–2 在一项有关住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”
a. 非常不满意; b. 不满意;c. 一般;d. 满意;e. 非常满意。
调查结果经整理如表3–2和表3–3所示。
表3-2 甲城市家庭对住房状况的评价
回答类别
甲城市
户数
(户)
百分比
(%)
向上累积
向下累积
户数
(户)
百分比
(%)
户数
(户)
百分比
(%)
非常不满意
不满意
一 般
满 意
非常满意
24
108
93
45
30
8
36
31
15
10
24
132
225
270
300
8.0
44.0
75.0
90.0
100.0
300
276
168
75
30
100
92
56
25
10
合 计
300
100
-
-
-
-
表3-3 乙城市家庭对住房状况的评价
回答类别
乙城市
户数
(户)
百分比
(%)
向上累积
向下累积
户数
(户)
百分比
(%)
户数
(户)
百分比
(%)
非常不满意
不满意
一般
满意
非常满意
21
99
78
64
38
7.0
33.0
26.0
21.3
12.7
21
120
198
262
300
7.0
40.0
66.0
87.3
100.0
300
279
180
102
38
100.0
93.0
60.0
34.0
12.7
合 计
300
100.0
-
-
-
-
2. 定序数据的图示
(1)累积频数分布图。根据累积频数或累积频率,可以绘制累积频数或频率分布图。例如,根据表3–2数据绘制的累积频数分布图如图3–3所示。
图3-3 甲城市对住房状况评价的累积分布图
(2)环形图。环形图与圆形图类似,但又有区别。环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示。圆形图只能显示一个总体各部分所占的比例,而环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。因此环形图可以显示多个总体各部分所占的相应比例,从而有利于进行比较研究。例如根据表3-2和表3-3数据绘制两个城市家庭对住房状况评价的环形图,如图3-4所示。
图3-4 甲、乙两城市家庭对住房状况的评价
在图3-4中,外边的一个环表示的是乙城市家庭对住房状况评价各等级所占的百分比,里边的一个环则为甲城市家庭对住房状况评价各等级所占的百分比。
3.3 数值型数据的整理与显示
上一节介绍的定类数据和定序数据的整理与图示方法,也都适用于对数值型数据的整理与显示。但数值型数据还有一些特定的整理和图示方法,并不适用于品质数据。
3.3.1 数据的分组
数值型数据包括定距数据和定比数据,在整理时通常要进行数据分组,就是根据统计研究的需要,将数据按照某种标准化分成不同的组别。分组后再计算出各组中出现的次数或频数,就形成了一张频数分布表。分组的方法有单变量值分组和组距分组两种。
1. 单变量值分组
单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量且变量值较少的情况。下面结合具体的例子说明分组的过程和频数分布表的编制过程。
例3–3 某生产车间50名工人日加工零件数(单位:个)如下。试采用单变量值对数据进行分组。
117
108
110
112
137
122
131
118
134
114
124
125
123
127
120
129
117
126
123
128
139
122
133
119
124
107
133
134
113
115
117
126
127
120
139
130
122
123
123
128
122
118
118
127
124
125
108
112
135
121
为便于分组,可先对上面的数据进行排序,结果如下:
107
117
122
125
130
108
117
122
125
131
108
118
122
126
133
110
118
123
126
133
112
118
123
127
134
112
119
123
127
134
113
120
123
127
135
114
120
124
128
137
115
121
124
128
139
117
122
124
129
139
采用单变量值分组形成的频数分布表如表3–4所示。
表3-4 某车间50名工人日加工零件数分组表
零件数(个)
频数(人)
零件数(个)
频数(人)
零件数(个)
频数(人)
107
108
110
112
113
114
115
117
118
1
2
1
2
1
1
1
3
3
119
120
121
122
123
124
125
126
127
1
2
1
4
4
3
2
2
3
128
129
130
131
133
134
135
137
139
2
1
1
1
2
2
1
1
2
从表3–4可以看出,在数据较多的情况下,单变量值分组由于组数较多,不便于观察数据分布的特征和规律,而且对于连续变量无法采用这种分组方法。
2. 组距分组
在连续变量或变量值较多的情况下,可采用组距分组,它是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限(Low limit),最大值称为上限(Upper limit)。采用组距分组需要经过以下几个步骤:
第一步:确定组数。一组数据分多少个组合适呢?这一般与数据本身的特点及数据的多少有关。由于分组目的之一是为了观察数据分布的特征,因此组数的多少应适中。若组数太少,数据的分布就会过于集中,而组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K:
式中,n为数据的个数,对结果用四舍五入的办法取整数即为组数。例如,对例3.3中的数据有:K=1+lg50÷lg2≈7,即应分为7个组。当然,这只是一个经验公式,实际应用时,可根据数据的多少和特点及分析的要求,参考这一标准灵活确定组数。
第二步:确定各组的组距。组距(Class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。例如,对于例3–3的数据,最大值为139,最小值为107,则组距=(139-107)÷7=4.6。为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距可取5。
第三步:根据分组整理成频数分布表。比如对上面的数据进行分组,可得到下面的频数分布表。见表3–5。
表3-5 某车间50名工人日加工零件数分组表
按零件数分组(个)
频数(人)
频率(%)
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计
50
100
采用组距分组时,一定要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其它组中重复出现;“不漏”是指在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而算在下一组内。例如,在表3-5的分组中,120这一数值不计算在“115~120”这一组内,而计算在“120~125”组中,其余类推。当然,对于离散变量可以采用相邻两组组限间断的办法解决“不重”的问题。例如,可对例3.3的数据做如下的分组,见表3–6。
表3–6 某车间50名工人日加工零件数分组表
按零件数分组(个)
频数(人)
频率(%)
105~109
110~114
115~119
120~124
125~129
130~134
135~139
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计
50
100
对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决“不重”的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。例如,对零件尺寸可以分组为10~11.99,12~12.99,14~15.99,等等。
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采用“××以下”及“××以上”这样的开口组,以解决“不漏”问题。例如,在例3–3的50个数据中,假定将最小值改为94,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用开口组,见表3–7。
表3–7 某车间50名工人日加工零件数分组表
按零件数分组(个)
频数(人)
频率(%)
110以下
110~115
115~120
120~125
125~130
130~135
135以上
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计
50
100
在组距分组时,如果各组的组距相等则称为等距分组,如上面的几种分组就是等距分组。有时,对于某些特殊现象或为了特定研究的需要,各组的组距也可以是不相等的,称为不等距分组。比如,对人口年龄的分组,可根据人口成长的生理特点分成0岁~6岁(婴幼儿组)、7岁~17岁(少年儿童组)、18岁~59岁(中青年组)、60岁以上(老年组)等。
等距分组由于各组的组距相等,各组频数的分布不受组距大小的影响。它同消除组距因素影响的频数密度(即单位组距内分布的频数,也称次数密度)的分布是一致的,因此可直接根据绝对频数来观察频数分布的特征和规律。而不等距分组因各组组距不同,各组频数的分布受组距大小不同的影响,因此各组绝对频数的多少并不能反映频数分布的实际状况。为消除组距不同对频数分布的影响,需要计算频数密度,即频数密度=频数÷组距。频数密度能准确反映频数分布的实际状况。
此外,组距分组掩盖了各组内的数据分布状况,为反映各组数据的一般水平,我们通常用组中值(Class midpoint)作为该组数据的一个代表值,即:
组中值=(下限值+上限值)/2
缺上限开口组组中值=上限–邻组组距/2
但这种代表值有一个必要的假定条件,即各组数据的在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。
为了统计分析的需要,有时需要观察某一数值以下或某一数值以上的频数或频率之和,因此还可以计算出累积频数或累积频率。
3.3.2 定距数据和定比数据的图示
第二节中介绍的条形图、圆形图、环形图及累积分布图等都适用于显示定距数据和定比数据。此外,对定距数据和定比数据还有以下一些图示方法,这些方法并不适用于定类数据和定序数据。
1. 分组数据——直方图和折线图
通过数据分组后形成的频数分布表,可以初步看出数据分布的一些特征和规律。例如,从表3–5可以看出,该车间工人日加工零件数大多数在120个~125个之间,共14人,低于这一水平的共有16人,高于这一水平的共有20人,可见这是一种非对称分布。如果用图形来表示这一分布的结果,会更加形象和直观。显示分组数据频数分布特征的图形有直方图、折线图和曲线图等。
(1)直方图(Histogram)。直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。比如,根据表3–5数据绘成的直方图如图3–5所示。
图3–5 某车间工人日加工零件数的直方图
依据直方图可以直观地看出工人日加工零件数及其人数的分布状况。
对于等距分组的数据,可以用矩形的高度直接表示频数的分布。如果是不等距分组数据,用矩形的高度来表示各组频数的分布就不再适用。这时,可以用矩形的面积来表示各组的频数分布,或根据频数密度来绘制直方图,从而准确地表示各组数据分布的特征。实际上,无论是等距分组数据还是不等距分组数据,用矩形的面积或频数密度来表示各组的频数分布都更为合适,因为这样可使直方图下的总面积等于1。比如在等距分组中,矩形的高度与各组的频数成比例,如果取矩形的宽度(各组组距)为一个单位,高度表示比例(即频率),则直方图下的总面积等于1。在直方图中,实际上是用矩形的面积来表示各组的频数分布。
直方图与条形图不同,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,因此其高度与宽度均有意义。此外,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
(2)折线图。折线图也称频数多边形图(Frequency polygon)。在直方图的基础上,把直方图顶部的中点(即组中值)用直线连续起来,再把原来的直方图抹掉就是折线图。需要注意,折线图的两个终点要与横轴相交,具体的做法是将第一个矩形顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。这样才会使折线图下所围成的面积与直方图的面积相等,从而使二者所表示的频数分布一致。例如,在图3–5的基础上绘制的折线图如图3–6所示。
图3–6 某车间工人日加工零件数的折线图
当对数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。分布曲线在统计学中有着十分广泛的应用,是描述各种统计量和分布规律的有效方法。
2. 未分组数据——茎叶图
未分组数据——茎叶图通过直方图可以大体上看出一组数据的分布状况,但直方图没有给出具体的数值。下面介绍的茎叶图(Stem-and-leaf display),既能给出数据的分布状况,又能给出每一个原始数值。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否极端值等等。
绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作为树茎。树茎一经确定,树叶就自然地长在相应的树茎上了。下面我们以例3–3的数据做茎叶图,见图3–7。
树茎
树叶
10
7 8 8
3
11
0 2 2 3 4 5 7 7 7 8 8 8 9
13
12
0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9
24
13
0 1 3 3 4 4 5 7 9 9
10
图 3–7 某车间工人日加工零件数的茎叶图
上面的茎叶图显得过于拥挤,我们可以把它扩展。比如可以将图扩展一倍,即每一个树茎重复两次,一次有记号“*”,表示该行叶子上的数为0-4,另一次有记号“·”,表示该行叶子上的数为5-9,于是可得到图3–8。
树茎
树叶
10
10
11
11
12
12
13
13
*
·
*
·
*
·
*
·
7 8 8
0 2 2 3 4
5 7 7 7 8 8 8 9
0 0 1 2 2 2 2 3 3 3 3 4 4 4
5 5 6 6 7 7 7 8 8 9
0 1 3 3 4 4
5 7 9 9
图3–8 某车间工人日加工零件数的茎叶图
茎叶图所表现的数据分布特征与直方图十分类似。
3. 时间序列数据——线图
如果定距数据和定比数据是在不同时间上取得的,即时间序列数据,还可以绘制线图。线图是在平面坐标上用折线表现数量变化特征和规律的统计图。线图主要用于显示时间序列数据,以反映事物发展变化的规律和趋势。
例3–4 1991-1998年我国城乡居民家庭的人均收入数据如表3–8,试绘制线图。
表3–8 1991-1998年城乡居民家庭人均收入 单位:元
年 份
城镇居民
农村居民
1991
1992
1993
1994
1995
1996
1997
1998
1 700.6
2 026.6
2 557.4
3 496.2
4 283.0
4 838.9
5 160.3
5 425.1
708.6
784.0
921.6
1 221.0
1 577.7
1 926.1
2 091.1
2 162.0
资料来源:《中国统计摘要1999》,78页,北京,中国统计出版社,1999。
根据上表数据绘制的线图如图3–9所示。
从图3–9可以清楚地看出,城乡居民的家庭人均收入逐年提高,而且城镇居民的家庭人均收入高于农村,1993年以后这种差距有扩大的趋势。
绘制线图时应注意以下几点:(1)时间一般绘在横轴,指标数据绘在纵轴。(2)图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。(3)一般情况下,纵轴数据下端应从0开始,以便于比较。数据与0之间的间距过大,可以采取折断的符号将纵轴折断。
3.3.3 频数分布的类型
在日常生活和经济管理中,常见的频数分布曲线主要有正态分布、偏态分布、J形分布、U形分布等几种类型,如图3–10。
图3-10 几种常见的频数分布
正态分布是一种对称的钟形分布,有很多现象服从这种分布,如农作物的单位面积产量、零件的公差、纤维强度等都服从正态分布,如图3–10(a)。J形分布有正J形和反J形两种,如经济学中供给曲线,随着价格的提高供给量以更快的速度增加,呈现为正J形;而需求曲线则表现为随着价格的提高需求量以较快的速度减少,呈现为反J形。U形分布的特征是两端的频数分布多,中间的频数分布少,比如,人和动物的死亡率分布就近似服从U形分布,因为人口中婴幼儿和老年人的死亡率较高,而中青年的死亡率则较低;产品的故障率也有类似的分布。
3.4 统计表
3.4.1. 统计表的作用
统计表是统计用数字说话的一种最常用的形式。把搜集到的数字资料,经过汇总整理后,得出一些系统化的统计资料,将其按一定顺序填列在一定的表格内,这个表格就是统计表。统计表有以下几方面作用:
1.能使大量的统计资料系统化、条理化,因而能更清晰地表述统计资料的内容。
2.利用统计表便于比较各项目(指标)之间的关系,而且也便于计算。
3.采用统计表表述统计资料显得紧凑、简明、醒目,使人一目了然。
4.利用统计表易于检查数字的完整性和正确性。
统计表既是调查整理的工具,又是分析研究的工具,广义的统计表包括统计工作各个阶段中所用的一切表格,如调查表、整理表、计算表等,它们都是用来提供统计资料的重要工具。
3.4.2. 统计表的构成
统计表的形式多种多样,根据使用者的要求和统计数据本身的特点,可以绘制形式多样的统计表。比如,表3–9就是一种比较常见的统计表。
从表3–9可以看出,统计表一般由四个主要部分组成,即表头、行标题、列标题和数字资料,必要时可以在统计表的下方加上表外附加。表头应放在表的上方,它所说明的是统计表的主要内容。行标题和列标题通常安排在统计表的第一列和第一行,它所表示的主要是所研究问题的类别名称和指标名称,通常也被称为“类”。如果是时间序列数据,行标题和列标题也可以是时间,当数据较多时,通常将时间放在行标题的位置。表的其余部分是具体的数字资料。表外附加通常放在统计表的下方,主要包括资料来源、指标的注释和必要的说明等内容。
表3–9 1997-1998年城镇居民家庭抽样调查资料*
项 目
单位
1997年
1998年}
列标题
一、调查户数
二、平均每户家庭人口数
三、平均每户就业人口数
四、平均每人全部收入
五、平均每人实际支出
消费性支出
非消费性支出
平均每人居住面积
户
人
人
元
元
元
元
m2
37 890
3.19
1.83
5 458.34
5 322.95
4 331.61
987.17
12.40
39 080
3.16.01 1.80
5 458.34
5 322.95
4 331.61
987.17
12.40
数 字 资 料
主词 宾 词
资料来源:《中国统计摘要1999》,79页,北京,中国统计出版社,1999。
* 本表为城市和县城的城镇居民家庭抽样调查材料。 附
** 消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗保健、 加
交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。
从统计表的内容上看,可以分为主词和宾词两个部分,如表3–9表示。主词是统计表所要说明的总体,它可以是各个总体单位的名称,总体的各个组成是总体单位的全部。宾词是说明总体的统计指标,包括指标名称和指标数值。
3.4.3. 统计表的种类
1. 按主词加工方法不同分为
(1)简单表。表的主词未经任何分组的统计表为简单表。简单表的主词一般按时间顺序排列,或按总体各单位名称排列。通常是对调查来的原始资料初步整理所采用的形式,如表3–10,即为按总体各单位名称排列的简单表。
表3–10 1999年国际旅游收入居世界前十名的国家
国 家
位次
旅游收入收入(亿美元)
占世界比重(%)
美国
西班牙
意大利
法国
英国
德国
中国
奥地利
加拿大
墨西哥
1
2
3
4
5
6
7
8
9
10
730.0
315.0
310.0
307.0
209.7
165.0
141.0
112.0
102.8
78.5
16.0
6.9
6.8
6.7
4.6
3.6
3.1
2.5
2.3
1.7
资料来源:《中国旅游统计年鉴(2000)》
(2)分组表。表的主词按照某一标志进行分组的统计表称为分组表。利用分组表可以提示不同类型现象的特征,说明现象内部的结构,分析现象之间的相互关系等,如表3-11所示。
表3–11 1998年某公司所属两企业自行车合格品数量表
厂 别
合格品数量(辆)
甲 厂
乙 厂
5 000
7 000
合 计
12 000
(3)复合表。表的主词按照两个或两个以上标志进行复合分组的统计表称为复合表。如表3–12所示。复合表能更深刻更详细地反映客观现象,但使用复合表恰如其分,并不是分组越细越好。因为复合表中多进行一次分组,组数将成倍增加,分组太细反而不利于研究现象的特征。
表3–12 1999年我国人口数及构成
人口数/万人
比例/%
按性别分
男
64 189
50.98
女
61 720
49.02
按城乡分
市镇
38 892
30.89
乡村
87 017
69.11
资料来源:《中国统计年鉴(2000)》第95页
2. 按宾词指标设计的不同分类
(1)宾词不分组设计
即宾词各指标根据说明问题的主次先后顺序排列,保持各指标之间的一定逻辑关系。如表3–13所示。
表3–13 1997年全国部分省市旅游涉外饭店基本情况
地区
饭店数/座
营业收入/万元
利润总额/万元
客房出租率/%
北京
338
1 447 905.72
175 132.68
59.37
上海
127
699 143.86
68 592.28
62.58
云南
190
102 884.37
1 044.09
55.19
资料来源:《中国旅游统计年鉴(1998)》
(2)宾词简单分组设计
即统计指标从不同角度分别按某一标志分组,各种分组平行排列。如表3–14所示。
表3–14 某企业职工性别及文化程度情况
职工总人数/人
性别
文化程度
男
女
小学
中学
大学
一线人员
二线人员
638
334
290
108
348
226
254
118
308
176
76
40
合 计
972
398
574
372
484
116
(3)宾词复合分组设计
即统计指标同时有层次地按两个或两个以上标志分组,各种分组重叠在一起。如表3—15 所示。
表3—15 某企业职工性别及文化程度情况
职工人数
小学
中学
大学
男
女
男
女
小计
男
女
小计
男
女
小计
一线人数
二线人数
290
108
348
226
110
28
144
90
254
118
138
64
170
112
308
176
42
16
34
24
76
40
合 计
398
574
138
234
372
202
282
484
58
58
116
3.4.4. 统计表的设计要求
由于使用者的目的以及统计数据的特点不同,统计表的设计在形式和结构上会有较大差异,但设计上的基本要求则是一致的。总体上看,统计表的设计应符合科学、实用、简练、美观的要求。具体来说,设计统计表时要注意以下几点。
第一,要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应安排合理。当然,由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过长的表格形式。
第二,表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。
第三,如果表中的全部数据都是同一计量单位,可放在表的右上角标明,若各指标的计量单位不同,则应放在每个指标后或单列出一列标明。
第四,表中的上下两条线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目。通常情况下,统计表的左右两边不封口,列标题之间一般用竖线隔开,而行标题之间通常不必用横线隔开。总之,表中尽量少用横竖线。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对于没有数字的表格单元,一般用“-”表示,一线填好的统计表不应出现空白单元格。
第五,在使用统计表时,必要时可在表的下方加上注释,特别要注意注明资料来源,以表示对他人劳动成果的尊重,方便读者查阅使用。
实训练习
【关键名词】
统计资料整理 统计分组 分组标志 复合分组
分配数列 组距数列 变量数列 频数
简单分组 频指数列 频率
【讨论与思考】
1.数据的预处理包括哪些内容?
2.定类数据和定序数据的整理和图示方法各有哪些?
3.定距数据和定比数据的分组方法有哪些?简述组距分组的步骤。
4.直方图与条形图有何区别?
5.统计表由哪几个主要部分组成?
6.制作统计表应注意哪几个问题?
【技能训练】
1.某百货公司连续40天的商品销售额(单位:万元)如表1:
表1
41
46
35
42
25
36
28
36
29
45
46
37
47
37
34
37
38
37
30
49
34
36
37
39
30
45
44
42
38
43
26
32
43
33
38
36
40
44
44
35
要求:根据上面的数据进行适当分组,编制频数分布表,并绘制直方图。
2.已知1990–2001年我国的国内生产总值数据如表2:
表2
年份
国内生产总值(亿元)
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
18548
21618
26638
34634
46759
58478
67884
74463
79553
81911
89404
95533
其中,在1998年的国内生产总值中,第一产业为14298.8亿元,第二产业为39149.8亿元,第三产业为26104.4亿元。
要求:(1)根据1990–2001年的国内生产总值数据,利用Excel软件绘制线图和条形图;
(2)根据1998年的国内生产总值及其构成数据,绘制圆形图和环形图。
3.某年对冶金行业的高炉有效容积调查结果为(单位:立方米):
72,82,65,1900,2100,300,520,400,100,1100,1600,800,320,1200,2600,500,175,1110,660,420,800,720,97,240,200,870,200,100,1760,410,900,700,400,150,250,400,1600,900,200,800
试根据上述数据分成以下几组:100以下,100–200,200–400,400–800,800–1600,1600以上,并绘制频数(率)分布图表。