社会调查方法主讲,张连绪教学幻灯片
(七)
第七章 调查资料的统计分析本章主要内容:
集中趋势的测定方法
离散趋势的测定方法
回归、相关分析的种类及方法
统计推论的方法
计算机用于统计分析的步骤第七章 调查资料的统计分析第一节 统计分析的特点与性质一、统计分析的基本特点统计是运用建立在数学科学的基础之上的各种方法去收集、整理和分析事物量的资料的工作过程。
统计工作的四个阶段:统计设计、统计调查、统计整理、
统计分析。
统计分析所能达到的深度、广度和水平,在相当大的程度上决定了整个调查研究所能达到的水平。
特点,1、数量性 —目的是反映数量的现状和发展 。
2、工具性 —统计分析是一种调研的方法和工具。
3、客观性 —如实反映数学资料的信息 。
4,综合性 —系统分析数据的所有变量、因素,分清主次 。
5,科学性 —建立在数学基础上的,具有科学依据。
第七章 调查资料的统计分析第一节 统计分析的特点与性质二、统计分析的内容和步骤
1、内容,包括描述统计、推论统计
( 1) 描述统计 —指对调查获得的大量数据资料进行系统的描述 。 通过统计,使之从不同方面反映出大量资料所包含的数量特征和数量关系 。
( 2) 推论统计 —指在描述统计的基础上,应用概率理论,从样本的有限资料中已经显露出来的信息去推断总体的一般情形 。
2、步骤:
( 1)确定目的和任务;( 2)统计资料整理;
( 3)确定变量类型,选用统计方法;
( 4)计算统计值;( 5)统计推论。
第七章 调查资料的统计分析第一节 统计分析的特点与性质二、统计分析的作用和限度
1、作用 P212
科学定量分析;资料执简驭繁;认识复杂现象;准确预测变化趋势;避免,先入为主,。
2,功能统计分析只是一个环节和一个办法,要发挥其综合功能 。
( 1) 统计分析必须与前面几个环节结合起来 。
( 2) 统计分析必须与定性分析结合起来 。
( 3) 统计分析必须和严肃认真细致的调查作风与工作态度相结合 。
( 4) 统计分析必须与正确的调查目的相结合 。
,不能数字出干部,,为领导歌功颂德。
第七章 调查资料的统计分析第二节 单变量统计分析单变量统计包括集中趋势和离散趋势两种。
一、集中趋势
(一)集中趋势的概述
1,概念 是指一组数据向某一个典型值或代表值集中的情况 。 如,大部分学生是女生,,,年龄最大的 24岁,最小的 20岁,等 。 集中趋势的概念就是代表值,平均值的概念,主要形式有:平均数,中位数,
众数 。
2,意义
( 1) 说明社会现象在一定历史条件下的共同性质 。 如用家庭户平均人数说明家庭结构的一般性质 。
( 2) 对社会现象的特征能够从数量方面在空间上进行比较 。 如不同省份家庭户平均人数不同,说明不同省份家庭观念不同 。
( 3) 对社会现象的特征能够从数量方面在时间上进行比较 。
( 4) 分析社会现象之间的相互依存关系 。 如生活水平的高低与家庭人口数的多少成反方向变化 。
注意,研究总体的 同质性问题 。 如计算平均人口把集体户口也当家庭户对待等 。
第七章 调查资料的统计分析第二节 单变量统计分析
(二)集中趋势的种类集中趋势分为:平均数,中位数,众数 。
1,算术平均数
( 1) 基本形式算术平均数 = 总体标志总量 /总体单位
= X1+X2+X3+X1+…… +Xn /n
= ∑Xi/n
其中,∑ 为连加符号; n 为总体单位数 。
( 2) 简单算术平均数就是直接利用上述公式,求未经分组的原始数据资料的算术平均数 。 P215 例 1
第二节 单变量统计分析
(二)集中趋势的种类
1,算术平均数
( 3) 加权算术平均数当数据资料比较多,且已编制成变量数列的情况下,
就要计算加权算术平均数,以反映总体中各总体单位某一数量的情况 。
公式为:
X=(X1f1+X2f2+… +Xnfn)/(f1+f2+… +fn)=∑X ifi/∑f i
其中,f为权数,即变量在总体中出现的次数 。
由于变量数列可分为单项数列 ( 单项分组 ) 和组距数列 ( 组距分组 ),计算加权算术平均值的方法也有两种:
第二节 单变量统计分析
① 由单项分组资料求算术平均值计算公式为:
X = ∑X ifi / ∑f i
例如,P215 例 2
② 由组距分组资料求算术平均值计算公式为:
X = ∑X mid*f /∑f
其中,Xmid表示各组组中值,f表示每组次数 。 例如,P216
组中值 ( Xmid) =( 上限 +下限 ) /2
注意:有时候缺少第一组的下限和最后一组的上限,其组中值的计算方法是:
缺上限的开口组组中值 =下限 +邻组组距 /2;
缺下限的开口组组中值 =上限 -邻组组距 /2
另外:组中值是假定值 ( 近似值 ),与实际有差距,但误差很小 。
第二节 单变量统计分析例如:全班 60名同学的考试分数分数 Xmid 学生数 (f) Xmidf
60分以下 55 4 220
60—70 65 10 650
70—80 75 20 1500
80--90 85 20 1700
90分以上 95 6 570
合计 60 4640
全班同学的考试分数为 4640/60=77.3
第二节 单变量统计分析
(二) 集中趋势的种类
1,算术平均数
( 4) 加权算术平均数的特殊应用
① 等级平均数 —根据总体中各总体单位的某一标志划分的不同等级所计算的算术平均数 。 如考试成绩分为 1,2,3,4,5等;技术等级分为 8级;调查中的排序计算等 。
② 评分平均数 --根据总体中各总体单位的某一标志划分的不同评分所计算的算术平均数 。 如对工作效率的评分,满意程度的评分等 。
第二节 单变量统计分析
(二) 集中趋势的种类
1,算术平均数
( 4) 加权算术平均值的特殊应用例如:两个体操运动员的得分情况项目 评分 比重( %) 评分 *比重甲 乙 甲 乙规定动作 9.85 9.75 60 591 585
自选动作 9.90 10.00 40 396 400
合计 19.75 19.75 987 985
甲的平均分为 987/100=9.87; 乙的平均分为 985/100=9.85
第二节 单变量统计分析
(二) 集中趋势的种类
2,中位数 ( Md)
中位数是指一组数据按大小顺序排列情况下处于中间位置上的数值 。 在测定中位数时,需先按照某一标志的特征依其高低,优劣,大小等顺序加以排列,然后确定其中心位置,并根据观察或计算出中位数 。
( 1) 根据未分组资料确定计算公式,中位数位置 =( n+1) /2
若数据的个数是奇数,则在中间位置的数值就是中位数 。
如 7位同学的考试成绩为,60,68,72,75,79,80、
83,则 ( 7+1) /2=4,第四个学生的分数 75则是中位数 。
第二节 单变量统计分析如果数据的个数是偶数,则用居于中间位置的两个数值的平均数是中位数 。
如 8位同学的考试成绩为,60,68,72,75、
79,80,83,87,
则 ( 8+1) /2=4.5,第四,五个学生的分数 75、
79的平均数 77则是中位数 。
( 2) 根据组距数确定
① 单项分组与未分组资料相同,先求中位组,然后根据上限或下限公式具体计算中位数的数值 。
第二节 单变量统计分析
(二) 集中趋势的种类
2,中位数 ( Md)
② 组距分组先确定中位数所在组的位置,再用下限公式计算 。
下限计算公式为:
Md=L+( ∑ f/2 – cfm-1) * i / fm
其中,Md—中位数
fm—中位数所在组的次数
L—中位数所在组的下限
cfm-1—比中位数所在组小的各组的累计次数
∑ f—累计次数
i—中位数所在组的组距第二节 单变量统计分析例如:全班 60名同学的考试分数分数 学生数 f 累计数 cf
60分以下 4 4
60—70 10 14
70—80 20 34
80--90 20 54
90分以上 6 60
合计 60
确定中位数所在组的位置,60/2=30 在 70-80分组
fm =20 L=70 cfm-1=14 ∑f= 60 i=10
所以 Md=L+( ∑ f/2 – cfm-1) * i / fm
=70+( 60/2-14) *10/20=70+8=78
(二)集中趋势的种类 2、中位数( Md)
第二节 单变量统计分析
(二) 集中趋势的种类
3,众数 (MO)
众数是指在许多数据中出现次数最多,有集中表现的一个数值,从而表明研究总体中各总体单位某一特征的集中趋势 。
如,P219 表 10-5 考试成绩,良好,为众数在组距式分组资料的情况下求众数,则以出现次数最多的一组作为众数组,然后以这组的组中值为众数 。
P220 表 10-6 年收入最多的农户是 3000-4000元的农户
( 众数 ),其组中值为 ( 3000+4000) /2=3500元注意:只有在总体单位数较多,且有明显集中趋势的资料中才能计算众数 。
第二节 单变量统计分析
4、众数( MO)、中位数( Md)、平均数( X)之间的关系
MO Md X Md X MO
A G E
8378747066625854504642383430262218
C
o
u
n
t
60
50
40
30
20
10
0
平均数中位数众数众数( MO)、中位数( Md)、平均数( X)之间的关系第七章 调查资料的统计分析第二节 单变量统计分析二,离散程度 (离中趋势)
是与集中趋势相对应的次数分布的特征。
离散程度值越大,集中趋势值的代表性越小;离散程度值越小,集中趋势值的代表性越大。
种类:全距、异众比率、四分位法、标准差等 。
1、异众比率( VR)
是指非众数的次数与总体内全部单位数的比率。
VR =( N – fmo) / N
N—总次数 fmo—众数的次数异众比率的意义在于指出众数所不能代表的那一部分个案数在总体中的比重。异众比率与众数成反比。