第七章 抽 样
抽样是一种选择调查对象的程序
和方法,总体是复杂的,特征是多样的,如
辽宁电视台的观众满意度调查电视观众
这一总体太大,边界也不清,很难实施普查,
这类情形下通常代之以抽样调查,
第一节 抽样调查的概念及特点
? 一, 抽样调查的概念
抽样调查 就是从研究对象的总体中选择一部分
代表加以调查研究,然后用所得的结果推论和说明
总体特征,这种由总体中选取一部分代表的过程就
是抽样,所选取的这一部分代表就称为样本,
选取样本的方法 分为两大类,一类是依据研究任
务的要求和对调查对象的分析,主观地,有意识地在
研究对象的总体中进行选择,叫非概率抽样,
另一类是依据概率理论,按照随机原则选择样本,
完全不带调查者的主观意识,称为概率抽样,
二 抽样调查的特点
抽样调查与普查相比具有如下特点,
? 1,调查费用较低,
? 2,速度快
? 3,应用范围广
? 4,可获得内容丰富的资料
? 5,准确性高
三,抽样调查的理论依据
部分包含于整体之中,部分与整体有同
样的特征,现象,关系及过程,
抽样调查的成功与否首先要求所选取
的样本能够代表总体,既所抽取出来的样
本的总特征能够再现总体的结构,怎样能
够保证呢?概率抽样,
第二节 抽样的术语与程序
? 一,抽样的基本术语
? 1,总体 (population)
? 总体通常与构成它的元素 (element)共同定义 ;
总体是构成它的所有元素的集合而元素则是构成总体
的最基本单位,总体中所包含元素的数目通常用大写
字母 N 表示,
? 1,样本 (Sample)
? 样本就是从总体中按一定方式抽取出的一部分
元素的集合 如从某省总数为 12.8万的大学生总体中,
按一定方式抽取出 1000名大学生进行调查,这 1000
名大学生就构成该总体的一个样本,样本中的元素数
目通常用小写字母 n 表示,
3.抽样 (Sampling)
? 抽样是指从组成某个总体的所有元
素的集合中,按一定的方式选择或抽取一
部分元素的过程,或者说,抽样是从总体中
按一定方式选择或抽取样本的过程,
4 抽样单位 (Sampling Unit)
? 抽样单位就是一次直接的抽样所使用
的基本单位,抽样单位有时与构成总体的
元素是相同的,
5,抽样框 (SamplingFrame)
抽样框也叫抽样范围是指一次抽样时总体
中所有抽样单位的名单,
6,参数值 (Parameter)
也称总体值,它是关于总体中某一变量的综
合描述,或者说是总体中所有元素的某种特征的
综合数量表现,在统计中最常见的参数值时总体
某一变量的平均数,需要注意的是,参数值只有
对总体中的每一个元素都进行调查或测量才能
得到,
7,统计值 (Statistic)
统计值也称为样本值,它是关于样本中某一变量
的综合描述,或者说是样本中所有元素的某种特征的
综合数量表现,统计值是从样本中计算出来的,它是
相应的参数值的估计量,比如样本平均数就是总体平
均数的估计量,
按照习惯,参数值通常以希腊字母表示,而统计值
通常以罗马字母表示,
参数值和统计值之间的区别 是,参数值是固定不
变的,唯一的,通常是未知的,而统计值是变化的,既对
于同一个总体来说,不同样本的统计值是有差别的,
对于任一特定样本来说统计值是已知的,可计算的,
从统计值推论参数值,正是社会调查的一项重要内容,
8,置信度 (Confidence level)与
置信区间 (Confidence Interval)
置信度也称为置信水平,它是指总体参数值,落在样本统计
值某一区间内的概率,或者说是总体参数值落在样本统
计值某一区间中的把握性程度,它反映的是抽样的可靠
性程度,
置信区间指的是样本统计值与总体参数值之间的误差
范围,置信区间反映的是抽样的精确性程度,
比如,从某一机关一万名干部中抽取 200人为样本,调查其平
均工资,若样本的平均工资为 100元,那么总体平均工资
落在 95-105元这一区间的概率可能为 96%(误差为 ± 5
元 ),落在 90-110元这一区间的概率可能为 99%(误差为
± 10元 )可见,置信区间越大,既误差范围越大,置信水平
越高,抽样的精确性程度就越低,反之,置信区间越小,既
误差范围越小,抽样的精确性程度就越高,
二,抽样的基本程序
在总体中抽取一个样本时,总要尽可
能地使样本具有代表性,如果样本的统计
值近似总体的参数值,则这个样本可以称
为 一 个 代 表 性 样 本,(representative
sample).问题是怎样做才可以减少抽样
的误差,求得一个有代表性的样本呢? 这
就要依据下面的五个步骤,
1.界定总体
? 根据调查的目的要求,确定调查对象的
范围,包括时间,地点,和人物,
? 例如我们要研究沈师大大学生生活态度,
可以界定总体的范围如下,2003年沈阳师
范大学大一至大四的在校本科大学生,总
体的定义越清楚越好,由样本所得的研究
结果,原则上只能推论到这个所界定总体
范围,
2,确定抽样框
? 将总体按照抽样单位划分为各个部分,
这些部分还必须互不重叠,又能合成总体,
然后将其毫无遗漏地编制成表,既抽样框,
在复杂的多阶段的抽样中,相应的各个阶
段有多个抽样框,
? 在应用之前必须审核其完整性
和准确性,例如,有无遗漏,有无列于名单
上但实际上不存在的个案,有没有重复或
不属于研究范围的等等,
3,设计和选取样本
设计包含两个部分,
? 确定样本的数量, 决定样本的大小时,
必须同时考虑抽样误差和研究代价,如,抽
样框中有三万,大学生,不可能全部调查,要
抽取多少个案来进行研究呢,在正常的情况
下,样本越大就越有代表性,但是样本越大,
所需的研究代价就越大,
? 选择抽样的具体方法 抽样方法有许多
种,不同的方法产生的样本代表性是不同的,
4,对样本进行评估
在样本抽出后,需采用各种调查方法对样
本进行实际调查以收集资料,最后对收集到
的资料进行计算并将结果推论和说明总体,
在开始调查之前要对样本进行评估,评
估的目的是初步检查样本的代表性,以免由
于前面步骤中的失误使样本偏差太大,
评估样本可以采取收集若干容易得到的
资料作为总体和样本之间的比较方法,
如果样本与总体的情况相似,这样的样本
就有代表性,如果两者资料相差甚多,则表
明前面的抽样步骤有问题要检查,修正,
第七章 第三节 概率抽样
? 概率抽样是使总体内的所有个体具有相同
的被抽入样本的概率,这样的样本被称为随机
样本,随机抽样是由等概率地随机抽取的个体
所组成,由于是以概率为依据,所以能避免抽
样过程中的人为误差,保证样本的代表性,
? 在各种抽样方式中,随机样本的代表性最
高,
? 概率抽样可以分为简单随机抽样,等距抽
样,分层抽样,整群抽样,以及多阶段抽样,
一,简单随机抽样
(Simple Random Sampling)
? 1.内涵
? 简单随机抽样又称为纯随机抽样,它
是最基本的概率抽样,其他概率抽样都可以
看成是由他派生出来的,
简单随机抽样对总体中的所有个体
按完全符合随机原则的特定方法抽取样本,
既抽样时不进行任何分组,排列,使总体中
的任何个体都同样有被抽取的平等机会,对
总体中的所有分子一视同仁,毫无例外,
2.方法,
? 小总体时 抓阄,抽签,
? 较大总体时 随机数字表,使用方法,
简单随机样本是概率抽样的理想类
型,他从随机样本的抽取到对总体进行推断
有一套健全的规则,但是当总体所含个体的
数目太多时采用这种方法不仅费事,工作繁
杂,而且费用太高,此外当总体内分类明显时,
这种抽样无法按类别特征自动分配样本数,
若想保证样本的代表性,必须增大样本量,从
而使整个工作的工作量增大,
二,等距抽样 (Systematic Sampling)
也叫系统抽样或机械抽样,它是简单随机抽
样的一个变体,具体做法是,
1.将总量的所有个体按一定顺序排列,
2.计算抽样距离,距离是由总体数目与样本
数目决定的,如果总体数为 N,样本数为 n,则
抽样距离应是,NK=——
n
3.在 K个个体中,用完全随机的方法抽取
一个个体,设其所在的位置的序号为 K
4.自 K 开始,每隔 K个抽取一个体,依次抽
取的位置序号为 k.,k+k,k+2k,k+k,
k+2k…,k+(n+1)k。
练习题,
某大学有 12000名学生,欲了解其
生活态度,决定采用等距抽样的方法从
中抽查 200名学生,用简单随机抽样的方
法抽出第一名学生序号为 12,请计算第
十位,第十五位学生的序号是多少?
(两种特殊情况的处理方法 )
等距抽样与简单随机抽样一样,要对总体中所有
个体进行顺序编号,要收集总体名单,但是,有时也可
以不这样做,只要总体的排列顺序是随机的,就可依
已排好的次序从中等距抽取样本,如用尺子,这样工
作量较少,易于实施,
等距抽样与简单随机抽样相比,样本分布更为均
匀,抽样误差更小,是一种更广泛应用的抽样方法,
注意, 等距抽样是以总体的随机排列为前提的,
如果总体的排列出现有规律的分布时,会使等距抽样
产生极大的误差,降低样本的代表性,
等距抽样最适用于同质性较高的总体,当总体内
个体类别之间的数目悬殊过大时,样本的代表性可能
较差,在这种情况下应采用另一种抽样方法,
三,分层随机抽样
( Stratified Sampling)
? 1.分层抽样的内涵,
? 分层随机抽样是将总体依照某一种
或某几种特性分为几个子总体,每个子总
体称为一层,然后从每一层中抽取一个字
样本,将这些子样本合在一起即为总体的
样本,
? 2.分层抽样种类,
按各层子样本容量的确定方式分
层抽样一般分为 按比例分层抽样 和 异比
例分层抽样,
① 按比例分层抽样
按比例分层抽样要求各层子样本在总体样本
中所占比例与本层在总体中所占的比例相同,
② 异比例分层抽样
比例不相同。
非等概率抽样的后期统计一般要做特殊处理,
★ 以抽样单位的何种特性作为分层抽样的标
准?一般是选择与调查中要测变量高度相关的
变量,即对所要研究的变量有很大影响的因素
作为分层变量,
★ 分层抽样是用于总体内个体数目较多,结
构比较复杂,内部差异较大的情况,
四,整群随机抽样 (Cluster Sampling)
? 又称为聚类抽样,是将总体按照某种标准化分为一
些子群体,每个子群体作为一个抽样单位,用随机的办
法从中抽取若干子群,将抽出的子群中所有个体合在
一起作为总体的样本,
? 整群抽样与分层抽样有相似之处,第一步都是按
某种标准将总体划分为一些子群,
? 但是分层抽样是在所有子群中均抽取一个子样本,
作为总体样本的一部分,而整群抽样是抽取若干子群,
并将抽出的子群中全部个体作为样本,总体样本只分
布在几个群中, 所以整群抽样的分群标准要求群间异
质性低,群内异质性高,适用于界定不清的总体,
五,多阶段抽样
(Multistage Samlping)
? 在整群抽样中,当子群数和子群内部个体
数目较多,而彼此间的差异性不太大时,常常
采用更加经济的方法,既不将样本子群中的所
有个体作为样本,而是再从中用随机抽样的方
法抽出最终样本,因最终样本的获取经过两次
抽样,我们称之为二阶段抽样,同样地可进行
三阶段,四阶段,即多阶段的抽样,
? 它通常在第一阶段使用严格的随机抽样方
法,而从第二阶段起使用概率比例抽样,即根
据每一群所含个体的多少分配样本名额,
例如,某市有 23个区,共 714万人,从中抽取
1000人的样本,将区作为初级抽样单位,每区人数
不等,把每区人数的号码范围列出,东区是 1-
120000号,西区是 120001-270000号 …,.一直排到
7140000号,从这些号码中用随机数字表确定 10个
号码,则这 10个号码所落入的区即为调查区,如仇
中 340000号,它落在南区,则南区为调查区,从这
10个调查区中,每区再随机抽取 100人就构成最终
样本,
多阶段抽样特别适用于调查范围大,单位多,
情况复杂的调查对象,但多阶段抽样由于在每一
阶段抽样是都会产生误差,因此经多阶段抽样得
到的样本的误差也相应增大,这是它的不足之处,
第四节,非概率抽样
? ★ 概率抽样与非概率抽样
? 概率抽样能够排除调查者的主观影响,抽选
出郊游代表性的样本,并能够确知和控制抽样误
差的大小,
? 但是在很多情况下,这种严格的随机抽样很
难进行,例如,由于调查对象的总体边界不清,无
法编制随机抽样所应具备的抽样框,因而无法进
行随机抽样,
? 有时调查的目的仅仅是对问题做出不探索,
获得研究的线索和提出假设,而不是有样本推论
总体,在这种情况下一般代之以非概率抽样,
★ 非概率抽样的特点
? 非概率抽样,操作方便,省钱省力,统计上也
比概率抽样简单,而且能对调查总体和调查对象
有较好的了解,抽样也可获得较大的成功,
? 但是非概率抽样由于排除不了调查者的主
观影响,以呢无法说明样本是否体现了总体的结
构,所以,将非概率抽样的结论推论到总体时要
极其慎重,否则就容易出现以偏概全的错误,
? 非概率抽样主要有偶遇抽样,主观抽样,定额
抽样,滚雪球抽样等,
一,偶遇抽样
(Accidental or Convenience Sampling)
? 偶遇抽样是指研究者将其在一定时
间内,一定环境里所能遇见或接触到的人
均选入样本的方法,“街头拦人,
? 由于是依据调查者的方便任意选取
样本,也称为方便抽样,
偶遇抽样的优点是方便省力,但是样
本的代表性差,又很大的偶然性,
二,判断抽样
(Judgmental or Purposive Sampling)
? 也称立意抽样,它是调查者根据研究目标和
自己主观的判断来选择和确定调查对象的方法,
? 这种样本的代表性取决于研究者对总体的
了解程度和判断能力,当总体规模小,所涉及的
范围较窄时样本的代表性较好,
当总体大范围广,代表性将显著降低,
它的作用在于发现问题,提出假设,而不在
于对总体做出概括,
三,定额抽样 (Quota Sampling )
? 又称作配额抽样,它与分层随机抽样相似,也
是按调查对象的某种属性或特征将总体中所有个
体分成若干类或层,然后在各层中抽样,样本中个
层所占的比例与它们在总体中所占的比例一样,但
是不同的是分层抽样中各层子样本是随机抽取的,
而定额抽样中各层的子样本是非随机抽取的,
? 定额抽样是以代表总体为目的的,因此必须对
总体的性质有充分的了解,但是,一方面分层时只
能考虑众多属性中的几种,另一方面,新的变化信
息又不易得到,因此样本的代表性要受影响,
四,滚雪球抽样 (Snowball Sampling)
? 当我们无法了解总体情况时,可以从
总体中少数成员入手,对他们进行调查,
向他们询问还知道那些符合条件的人,在
去找越来越多具有相同性质的群体成员,