第十一章,资料的统计分析
? 调查所得的原始资料经过审核,整理,与汇
总后,还需要进行系统的统计分析,才能解释除
掉 查资料所包含的众多信息,才能得出调查的
结论,因而,统计分析是现代社会调查方法中十
分重要的一部分,
? 统计分析方法的内容可以根据变量的多
少划分为单变量分析,双变量分析和多变量分
析,前两者可称为初等统计,后者可称为高等统
计,我们只对初等统计进行简单的介绍,
第一节,单变量描述统计
? 单变量统计分析可分为两大方面,即,描述
统计和推论统计,
? 描述统计的主要目的在于用最简单的概括
性反映出大量数据资料所容纳的基本信息,它
的基本方法包括 集中量数分析和离散量数 分
析等,
? 推论统计的主要目的使用从样本调查中所
得到的数据资料来推断总体的情况,主要包括
区间估计和假设检验 等
一,频数分布与频率分布
?1,频数分布 (Frequency Distribution)
频数分布是指一组数据中取不同值的个案
的次数分布情况,它一般是以频数分布表的形
式表达,(见表 1.)
频数分布表的作用,
A.简化资料,将调查得到的杂乱的原始
数据,以十分简洁的统计表反映出来,
B.清楚地了解调查数据的众多信息,
表 1,97 年统计学历分布
学 历 人 数
小学以下 1
中学 72
高中 44
中专 13
大专 52
大学 58
硕士 4
博士 7
M i ssi n g 49
T o ta l 300
2.频率分布
频率分布 (percentages distribution)
频率分布是一组数据中不同屈指的频
数相对于总数的比率分布情况,这中比率在
社会调查中经常是以百分比的形式来表达,
(见表 2)
频率分布表 试不同类别在总体中的相
对数量分布,她十分方便于不同总体会不同
类别之间的比较,因此这种分布表的应用更
为普遍,
表 1,97 年学历分布
学 历 人 数 P e r ce n t
小学以下 1,3
中学 72 2 4,0
高中 44 1 4,7
中专 13 4,3
大专 52 1 7,3
大学 58 1 9,3
硕士 4 1,3
博士 7 2,3
M i ssi n g 49 1 6,3
T o ta l 300 100 ( n = 3 0 0 )
二,集中量数分析
? 集中量数分析指的使用一个典型值来反映一
组数据的一般水平,别的树值围绕在它的周围,
? 最常见的集中量数有算术平均数,(简称平均数,
也称为均值 ),众数和中位数三种,
1.平均数 (mean)
平均数是使用得最多的集中量数,平均数数是指
总体各单位数值之和除以总体单位数目所得之商
统计分析中习惯以 X 来表示,其计算公式如下
∑X
n
X =
1.1从原始数据计算平均数
1.2 从单值分组资料计算平均数
首先要将每一个变量值乘以对应的
频数 f,得出各族的数值 之和,然后将各
族的数值之和全部相加,最后除以单位
总数,
∑Xf ∑Xf
∑f n
X =
=
例题,调查某年级 150名学生的
年龄得到下列结果,
表 3,某年级学生的年龄分布
年龄 人数 ( 频数 )
17 10
18 25
19 50
20 40
21 20
22 5
合计 150
1.3 从组距分组资料计算均值
在调查收入年量等方面情况时,常常
得到组距分组形式的资料,如我们知道各
年龄段的人数,若要计算平均年龄就需要
计算出各组的组中值,然后在按照单值分
组资料计算平均数的公式计算,
组中值的计算公式为,
上限 +下限
2
组中值 =
例,调查某企业 100名职工的收入
得到如下资料,请计算平均收入,
表 4,某企业百名职工收入分布
收入 ( 元 ) 职工数 ( 人 ) 组中值 X ?
100 - 199 10 150 1 5 0 0
200 - 299 10 250 2 5 0 0
300 - 399 40 350 1 4 0 0 0
400 - 499 20 450 9 0 0 0
500 - 599 20 550 1 1 0 0 0
合计 100 3 8 0 0 0
注意,开口组的组中值
前面缺下限的开 邻组组距
口组的组中值 2= 上限-
后面缺上限的开口 邻组组距
组的组中值 2= 下限 +
2.众数 (Mode)
众数是一组数据中出现次数最多 (即频数最高 )
的那个数值,众数与平均数一样也可用来概括反映
总体的一般水平或典型情况,
2.1 单值分组资料
先在频数栏中找出最大的频数,然后找到
最大频数所对应的标志值,这一标志值即为众数,
(以表 3为例 )
2.2 组距分组资料 (组中值法 )
首先通过直接观察找出最高的频数,然后根
据最高的频数找到它所对应的组,最后求出改组的
组中值即为众数,(以表 4为例 )
3.中位数 (Median)
把一组数据按值的大小顺序排列起来,处于中央
位置的那个数值就叫中位数,它描述的是定序变量以
上层次的变量, 它的含义是整个数据中有一半数值在
她之上,另一半数值在它之下,
公式为, Md=(n+1)÷ 2
3.1 原始资料计算中位数
例,调查五个工厂的职工人数,按规模由小到大依次为
200人,300人,500人,800人,1000人,依据公式 (5+1)÷ 2=3
为中间位置,即所对应的数值 500人即为中位数,
★ 当数据为偶数时中位数处于中间两个数值之间,这
时一般以中间两个数值的平均数作为中位数,
3.2单值分组资料计算中位数
当资料为单值分组数据时,也是先求出数据
组的中间位置,然后再找出其对应值,但寻找方式
需要注意 (以表 3为例 ).
先计算中间位置,
(n+1)÷ 2=(150+1)÷ 2=75.5
即,中间位置在第 75个数值与 76个数值之间,
为了赵找到这个位置,需要列出累计频数,
表 3,某年级学生的年龄分布
年龄 人数 ( 频数 ) 累计频数↓ 累计频数↑
17 10 10 150
18 25 35 140
19 50 85 1 1 5
20 40 125 65
21 20 145 25
22 5 150 5
合计 150
3.3 由组距分组资料求中位数
具体方法是,
先列出累计频数,然后按同样的方法确定中位数
所在的组,最后利用下述公式计算出中位数的值,
中位数 = L + n/2-c?(m -1)
? m
L为中位数所在组的下限值, c?(m -1)为中位
数所在组以上的累计频数,为 ? m为中位数所在组
的频数,I为中位数所在组的组距,(以表 4为例 )
× ?
4.中位数与平均数的比较
?平均数要求计算所有的数值,而中位数只用到
数值的相对位置,一般说来平均数例均数利用
了更多的信息,更全面和准确,
?平均数容易受到极端值的影响,中位数则不会
受到这种影响,
?平均数是一种比中位数更为稳定的量度,它随
样本的变化比较少,
? 当资料是定序,定类测量或者是有开口组的
定居测量时,中位数能够拟补不足,