第 2章 统计资料的搜集和整理统计活动的三个基本步骤统计调查 根据研究目的,有组织、有计划的搜集资料。 基本要求:准确、完整和及时统计整理统计分析对调查资料进行过滤、分类和精炼。
核心内容:统计分组描述性分析、推断性分析、决策分析。
特点:定性与定量的结合一、统计调查调查的组织方式专 门 调 查统计报表制度普 查重点调查典型调查抽样调查全面调查调查方法 普查 统计报表制度特点 工作量大,时间性强 自上而下布置、自下而上报告任务 搜集 重要 国情国力和资源状况的全面资料 搜集国民经济和社会发展基本 情况的资料优点 资料全面、详细 资料的统一性、回收率高满足不同层次需求方式 专门普查机构及人员专项调查表 以统计表格的形式取得资料非全面调查调查方法 重点调查 典型调查 抽样调查特点 选择总体中个别或部分重点单位选择总体中有代表性的单位以随机原则抽样、以样本指标推断总体参数、可以控制误差选样标准 占总体标志总量的绝大比重最充分、集中体现总体某种共性随机原则任务 了解总体的基本情况认识总体的本质特征对总体的数量特征进行估计和判断方式 通过统计报表取得资料解剖麻雀、划类选典、抓两头法纯随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样二、统计分组统计分组,穷尽原则、互斥原则
33% 25%
42%
分 组 前 分 组 后统计分组按一定标志将总体分为若干类型的组,缩小组内差异,扩大组间差异,使数据变为有序的、层次分明的、显示总体数量特征的资料。
主要作用如下:
划分现象的类型按所有制性质划分,我国现有 8种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;
港澳台投资经济
研究总体的结构
研究现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数( 1984年)
例:上海市按 GDP计算的三次产业结构( %)
1980年 1990年 1996年 1997年
GDP 100 100 100 100
第一产业 3.2 4.3 2.5 2.3
第二产业 75.7 63.8 54.5 52.2
第三产业 21.1 31.9 43.0 45.5
按收入分组(元) <200 <300 <400 <500 <600 <800 <1000
恩格尔系数( %) 64.9 60.2 56.7 54.4 50.5 49.9 43.6
统计分组的标志统计分组体系
平行分组体系分组标志的选择,依据研究目的,选择能反映现象本质特征的标志。
品质标志分组,按事物的品质特征进行分组数量标志分组,按事物的数量特征进行分组按年龄分组
0 ~ 6 岁组
7 ~17岁组
18~59岁组
60岁以上组
复合分组体系高校学生理科学生组文科学生组本科学生组专科学生组本科学生组专科学生组男学生组女学生组男学生组女学生组男学生组女学生组男学生组女学生组频数分布
分 类分组 单位数 比率(频率 %)
… … …
合计 100
频数分布频率分布属性分布数列变量分布数列单项数列组距数列等距数列异距数列例:属性分布数列单项数列按行业分组 人数(万人) 频率( %)
第一行业第二行业第三行业其他行业
22.20
182.13
145.75
1.32
6.3
51.8
41.5
0.3
某省职工行业分布状况某高校新生年龄构成情况新生年龄 (岁 ) 人数(人) 频率( %)
17
18
19
20
21
22
100
358
420
108
85
12
9.2
33
38.8
10
7.9
1.1
频数分布表的编制
1 顺序排列,计算 全距(极差) =最大值 -最小值
2 变量分组
3 确定组数,计算组距 (Class Interval)
4 计算各组的频数(率)、累积频数(率) (Frequency)
5 计算各组的组中值 (Midpoint)
单项数列:离散型变量且取值不多组距数列:离散型变量但取值很多或连续型变量均匀分布,组距 =全距 /组数分布很不均匀:视具体情况而采用变动组距闭口组:组中值 =(上限 +下限) /2
开口组:组中值 = 上限 -邻近组组距 /2(缺下限)
下限 +邻近组组距 /2(缺上限)
频数分布的表示方法
列表法考试成绩
(分 )
人数
(人)
频率
( %)
较小制累计
( %)
较大制累计
( %)
50-60
60-70
70-80
80-90
90-100
5
11
17
11
6
10
22
34
22
12
10
32
66
88
100
100
90
68
34
12
合 计 50 100 _ _
50名学生统计学原理考试成绩分布表
图示法考试成绩频数分布直方图
0
10
20
30
40
考试成绩频数分布折线图
0
10
20
30
40
考试成绩频数分布饼状图
50-60
60-70
70-80
80-90
90-100
考试成绩频数分布曲线图
0
10
20
30
40
0 2 4 6
统计表
1 构成总表题横行标题:统计研究的对象。也称 主词 。
纵栏标题:说明主词的指标名。也称 宾词 。
数字资料
2 分类主词宾词简单表分组表复合表平行形式交叉形式
3 编制规则
核心内容:统计分组描述性分析、推断性分析、决策分析。
特点:定性与定量的结合一、统计调查调查的组织方式专 门 调 查统计报表制度普 查重点调查典型调查抽样调查全面调查调查方法 普查 统计报表制度特点 工作量大,时间性强 自上而下布置、自下而上报告任务 搜集 重要 国情国力和资源状况的全面资料 搜集国民经济和社会发展基本 情况的资料优点 资料全面、详细 资料的统一性、回收率高满足不同层次需求方式 专门普查机构及人员专项调查表 以统计表格的形式取得资料非全面调查调查方法 重点调查 典型调查 抽样调查特点 选择总体中个别或部分重点单位选择总体中有代表性的单位以随机原则抽样、以样本指标推断总体参数、可以控制误差选样标准 占总体标志总量的绝大比重最充分、集中体现总体某种共性随机原则任务 了解总体的基本情况认识总体的本质特征对总体的数量特征进行估计和判断方式 通过统计报表取得资料解剖麻雀、划类选典、抓两头法纯随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样二、统计分组统计分组,穷尽原则、互斥原则
33% 25%
42%
分 组 前 分 组 后统计分组按一定标志将总体分为若干类型的组,缩小组内差异,扩大组间差异,使数据变为有序的、层次分明的、显示总体数量特征的资料。
主要作用如下:
划分现象的类型按所有制性质划分,我国现有 8种经济类型:国有经济;集体经济;私营经济;个体经济联营经济;股份制经济;外商投资经济;
港澳台投资经济
研究总体的结构
研究现象之间的依存关系例:中国农民家庭按收入分组的恩格尔系数( 1984年)
例:上海市按 GDP计算的三次产业结构( %)
1980年 1990年 1996年 1997年
GDP 100 100 100 100
第一产业 3.2 4.3 2.5 2.3
第二产业 75.7 63.8 54.5 52.2
第三产业 21.1 31.9 43.0 45.5
按收入分组(元) <200 <300 <400 <500 <600 <800 <1000
恩格尔系数( %) 64.9 60.2 56.7 54.4 50.5 49.9 43.6
统计分组的标志统计分组体系
平行分组体系分组标志的选择,依据研究目的,选择能反映现象本质特征的标志。
品质标志分组,按事物的品质特征进行分组数量标志分组,按事物的数量特征进行分组按年龄分组
0 ~ 6 岁组
7 ~17岁组
18~59岁组
60岁以上组
复合分组体系高校学生理科学生组文科学生组本科学生组专科学生组本科学生组专科学生组男学生组女学生组男学生组女学生组男学生组女学生组男学生组女学生组频数分布
分 类分组 单位数 比率(频率 %)
… … …
合计 100
频数分布频率分布属性分布数列变量分布数列单项数列组距数列等距数列异距数列例:属性分布数列单项数列按行业分组 人数(万人) 频率( %)
第一行业第二行业第三行业其他行业
22.20
182.13
145.75
1.32
6.3
51.8
41.5
0.3
某省职工行业分布状况某高校新生年龄构成情况新生年龄 (岁 ) 人数(人) 频率( %)
17
18
19
20
21
22
100
358
420
108
85
12
9.2
33
38.8
10
7.9
1.1
频数分布表的编制
1 顺序排列,计算 全距(极差) =最大值 -最小值
2 变量分组
3 确定组数,计算组距 (Class Interval)
4 计算各组的频数(率)、累积频数(率) (Frequency)
5 计算各组的组中值 (Midpoint)
单项数列:离散型变量且取值不多组距数列:离散型变量但取值很多或连续型变量均匀分布,组距 =全距 /组数分布很不均匀:视具体情况而采用变动组距闭口组:组中值 =(上限 +下限) /2
开口组:组中值 = 上限 -邻近组组距 /2(缺下限)
下限 +邻近组组距 /2(缺上限)
频数分布的表示方法
列表法考试成绩
(分 )
人数
(人)
频率
( %)
较小制累计
( %)
较大制累计
( %)
50-60
60-70
70-80
80-90
90-100
5
11
17
11
6
10
22
34
22
12
10
32
66
88
100
100
90
68
34
12
合 计 50 100 _ _
50名学生统计学原理考试成绩分布表
图示法考试成绩频数分布直方图
0
10
20
30
40
考试成绩频数分布折线图
0
10
20
30
40
考试成绩频数分布饼状图
50-60
60-70
70-80
80-90
90-100
考试成绩频数分布曲线图
0
10
20
30
40
0 2 4 6
统计表
1 构成总表题横行标题:统计研究的对象。也称 主词 。
纵栏标题:说明主词的指标名。也称 宾词 。
数字资料
2 分类主词宾词简单表分组表复合表平行形式交叉形式
3 编制规则