一、统计数据的直接来源问卷结构,开头 + 甄别 + 主体 + 背景问卷设计基本要求,主题明确,形式简明,
文字通俗,容易理解,
便于回答,词句编排,
层次分明,先易后难。
问卷形式:
① 开放式词句
②对选式词句
③多项选择式词句
④排序式词句
···························
调查时间和调查期限
1、调查时间,资料 所属时间。
2、调查期限,调查工作 的起止时间。
[例 ]某局欲派员调查 B企业 2002年的产值及年末 职工人数情况,要求调查工作于次年 1
月 1日开始,资料 1月底之前上报。
调查时间,2002年,2002年末。
调查期限,2003年 1月。
调查的组织计划调查工作的领导机构和办事机构;
调查人员的组织调查资料的报送办法调查前的宣传、培训、调查文件的准备工作调查经费的预算和开支办法调查方案的传达、试点及其他工作二、统计数据的间接来源
统计摘要
统计资料汇编
统计公告
报刊杂志
网上资料
历史文献
其它来源
年鉴
注意:
1、针对性地获取资料
3、注意指标含义、方法、口径的可比性
3、注明来源
例如:消费者可以按月收入的高低分类,
一项研究要了解月收入在 1200元以上和
8000元以下的消费者人数
而二手资料中收入段的划分是,200元以下,
200~399元,400~599元,600~799元,
800~999元,1000~1499元,1500~2499
元,2500~3999元,4000~5999元,
6000~8999元,9000元以上
请问适用性如何?
只能提供 1500~5999元收入的人数,不能提供
1200~1499元和 6000~7999元收入的人数。
第三节 统计数据的整理预处理分类或分组汇总系统化条理化数据的审核、筛选与排序
1,数据的审核
发现数据中的错误
2,数据的筛选
找出符合条件的数据
3,数据排序
发现数据的基本特征
一、数据的预处理
1、审核对第一手数据,
( 1)完整性审核:
–检查应调查的单位或个体是否有遗漏
–所有的调查项目或指标是否填写齐全
( 2)准确性审核,
真实性,检查数据是否真实反映客观实际情况,内容是否符合实际 ——逻辑检查(定性数据)
正确性,检查数据是否有错误,计算是否正
1、审核对第二手数据,
完整性准确性适用性,数据的来源、口径以及有关背景资料时效性,尽可能使用最新的数据
2、纠正和筛选尽可能纠正无法纠正时应筛选
3.数据的排序:定性、定量二、数据分组与频数分布分组前 分组后二、数据分组与频数分布
统计分组,根据统计研究的需要,将数据按照 某种特征或标准 分成不同的组别。
分组标志:
品质标志数量标志
频数分布,全部数据按其分组标志形成在各组内的分布状况。
频数(次数):各组内数据的个数。
频率(比重):各组频数与全部频数的比值 。
二、数据分组与频数分布
按品质标志分组形成的频数分布某厂职工人数统计表按性别分组男 职 工女 职 工合 计人数(人)
(频数)
比率(%)
(频率)
253
115
368
68.75
31.25
100.00
二、数据分组与频数分布
按数量标志分组形成的频数分布排序分组 单变量分组:离散型或变量值较少组距分组,连续型或变量值较多分组统计
2 2,6 2,6 2,6
17 2 2,1 2 2,1 2 4,7
22 2 8,6 2 8,6 5 3,2
24 3 1,2 3 1,2 8 4,4
11 1 3,6 1 3,6 1 0 0,0
76 1 0 0,0 1 0 0,0
9 0 分以上
8 0 - - 9 0
7 0 - - 8 0
6 0 - - 7 0
6 0 分以下合计人数 百分比 有效百分比 累计百分比二、数据分组与频数分布
数据分组的步骤,
1、排序,求全距(极差=最大值-最小值)
2、确定变量的数据形式 (单变量分组、组距分组)
3、确定组数(四舍五入):
斯特格斯( Sturges)经验公式,
组数 K=1+ log10N/log102=1+3.322lgN
4、确定各组组距组距 =极差 /组数 =(最大值-最小值 ) /组数
5、根据分组整理成频数分布表 (确定各组组限,计算频数) (尽可能使第一组的下限小频数分布表的编制
(实例)
117 122 124 129 139 107 117 130 122
125
108 131 125 117 122 133 126 122 118
108
110 118 123 126 133 134 127 123 118
112
112 134 127 123 119 113 120 123 127
135
137 114 120 128 124 115 139 128 124
121
某生产车间 50名工人日加工零件数如下 ( 单位:
个 ) 。 对数据进行分组 。
1、排序,求全距
107 108 108 110 112 112 112 114 115 117
117 117 118 118 118 119 120 120 121 122
122 122 122 123 123 123 123 124 124 124
125 125 126 126 127 127 127 128 128 129
130 131 133 133 134 134 135 137 139 139
极差=最大值-最小值= 139- 107= 32
2、确定变量的数据形式表 3-4 某车间 50名工人日加工零件数分组表
(单变量值分组)
零件数
(个 )
频数
(人 )
零件数
(个 )
频数
(人 )
零件数
(个 )
频数
(人 )
107
108
110
112
113
114
115
117
118
1
2
1
2
1
1
1
3
3
119
120
121
122
123
124
125
126
127
1
2
1
4
4
3
2
2
3
128
129
130
131
133
134
135
137
139
2
1
1
1
2
2
1
1
2
3、确定组数
K=1+ log10N/log102
=1+3.322lgN
= 1+ 3.322× lg50
≈7
4、确定各组组距组距 =极差 /组数
=(最大值-最小值 ) /组数
= 32 /7
= 4.6 ≈5
5、根据分组整理成频数分布表表 3-5 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 频率( %)
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计 50 100
数据分组与频数分布的注意点
1,,不重不漏,原则连续型变量,习惯上规定上组限不在内离散型变量,两组组限间断的办法
2,,空白组,与,开口组,(开口组通常以相邻组的组距为组距)
3、等距分组与不等距分组频数密度 =频数 /组距 (单位组距内分布的频数)
4、组中值 =(上限 +下限) /2(要求组内数据均匀或对称分布)
缺上限的组中值=下限+邻组组距 /2
缺下限的组中值=上限-邻组组距 /2
5,累积频数等距分组表
(上下组限重叠)
表 2-5 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 频率( %)
105~110
110~115
115~120
120~125
125~130
130~135
135~140
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计 50 100
等距分组表
(上下组限间断)
表 2-6 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 频率( %)
105~109
110~114
115~119
120~124
125~129
130~134
135~139
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计 50 100
等距分组表 (空白组)(将最小值改为 96,最大值改为 160)
表 2-5 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 频率( %)
95~100
100~105
105~110
110~115
115~120
120~125
125~130
130~135
135~140
140~145
145~150
150~155
155~160
160~165
1
0
2
5
8
14
10
6
3
0
0
0
0
1
2
0
4
10
16
28
20
12
6
0
0
0
0
2
等距分组表
(使用开口组)
表 2-7 某车间 50名工人日加工零件数分组表按零件数分组 频数(人) 频率( %)
110以下
110~115
115~120
120~125
125~130
130~135
135以上
3
5
8
14
10
6
4
6
10
16
28
20
12
8
合计 50 100
累积频数啤酒销售量的累计次数(频率)表销售桶数 频数 频率 向上累计 向下累计
(%) 次数 频率 次数 频率
10—19 1 1.7 1 1.7 60 100
20—29 3 5 4 6.7 59 98.3
30—39 5 8.3 9 15 56 93.3
40—49 16 26.7 25 41.7 51 85
50—59 20 33.3 45 75 35 58.3
60—69 9 15 54 90 15 25
70—79 4 6.7 58 96.7 6 10
80—89 2 3.3 60 100 2 3.3
合计 60 100 ———— ———— ———— ————
三、数据分布的图示和类型
(一)直方图
1,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的 面积 来表示各组的频数分布
2,在直角坐标中,用横轴表示 数据分组,纵轴表示 频数或频率,各组与相应的频数就形成了一个矩形,即直方图 (Histogram)
3,取矩形宽度为一个单位,频率为高度,则直方图下的总面积等于 1
分组数据 — 直方图
( 直方图的绘制)
频数
(人 )
15
12
9
6
3
105 110 115 120 125 130 135 140
日加工零件数 (个 )
直方图下的面积之和等于 1
图 3-5 某车间工人日加工零件数的直方图我一眼就看出来了
,大多数人的日加工零件数在 120~
125之间 !
30
24
18
12
6
%
(二)折线图
1,折线图也称 频数多边形图 (Frequency
polygon)
2,是在直方图的基础上,把直方图顶部的 中点 (组中值 )用直线连接起来,再把原来的直方图抹掉
3,折线图的两个终点要与横轴相交,具体的做法是
– 第一个矩形的顶部中点通过 竖边中点
( 即该组频数一半的位置 ) 连接到横轴,
最后一个矩形顶部中点与其竖边中点连接到横轴
15
12
9
6
3
105 110 115 120 125 130 135 140
日加工零件数 (个 )
频数
(人 )
折线图下的面积与直方图的面积相等!
分组数据 — 折线图
(折线图的绘制)
图 3-6 某车间工人日加工零件数的折线图
(三)未分组数据 — 茎叶图
(茎叶图的制作)
1,用于显示未分组的原始数据的分布
2,由,茎,和,叶,两部分构成,其图形是由数字组成的
3,以该组数据的高位数值作树茎,低位数字作树叶
4,对于 n(20≤n≤300)个数据,茎叶图最大行数不超过 L = [ 10 × log 10 n ]
5,茎叶图类似于横置的直方图,但又有区别
直方图可大体上看出一组数据的分布状况,
但没有给出具体的数值
茎叶图既能给出数据的分布状况,又能给出树茎 树叶
788
022347778889
0012222333344466777889
0133445799
10
11
12
13
数据个数
3
13
24
10
茎叶图类似横置的直方图未分组数据 — 茎叶图
(茎叶图的制作)
图 3-7 某车间工人日加工零件数的茎叶图未分组数据 — 茎叶图
(扩展的茎叶图)
树茎 树叶
10s
10.
11*
11t
11f
11s
11.
12*
12t
12f
12s
12.
13*
12t
13f
13s
13.
7
8 8
0
2 2 3
4 5
7 7 7
8 8 8 9
0 0 1
2 2 2 2 3 3 3 3
4 4 4 5 5
6 6 7 7 7
8 8 9
0 1
3 3
4 4 5
7
9 9
树茎 树叶
10*
10.
11*
11.
12*
12.
13*
13.
7 8 8
0 2 2 3 4
5 7 7 7 8 8 8 9
0 0 1 2 2 2 2 3 3 3 3 4 4 4
5 5 6 6 7 7 7 8 8 9
0 1 3 3 4 4
5 7 9 9
图 3-8 图 3.7扩展后的茎叶图
(四)频数分布的类型对称分布 右偏分布 左偏分布正 J型分布 反 J型分布 U型分布图 3-17 几种常见的频数分布