第 三 章
抽 样 设 计
本章学习内容
?一、抽样调查的一般问题
?二、抽样计划的步骤
?三、概率抽样方法
?四、非概率抽样方法
?五、抽样误差和样本容量
?六、有关抽样设计的几个问题
本章学习重点与难点
?如何定义总体、确定抽样框
?制定科学合理的抽样计划
?恰当地选择抽样方法进行抽样
?科学确定样本量
一、抽样调查的一般问题
?( 一 ) 抽样的理由和特点
?( 二 ) 抽样调查的概念和分
类
?( 三 ) 常用的概念, 术语
?1,总体, 全域或同质总体
?2,抽样与普查
(一)抽样的理由和特点
? 特点,经济、高效、准确
? 作用,抽样调查是市场调查中应用非常广泛的一
种调查方式。它主要在以下场合应用,
采用抽样进行研究较直接对总体研究有下述优点,
? 经济、省力、省物;
? 能提早汇总研究资料,及时利用研究结果;
? 较适用于研究对象分散的课题;
? 研究对象数量有限,获取资料的手段灵活多样;
? 从某种意义上讲,有时比总体研究更能提高研究
的质量。
? 见书上 51页
(二)抽样调查的概念和分类
?抽样调查是按照一定的程序,从所研究
对象的全体中抽取一部分单位进行调查,
并在一定条件下对研究对象的数量特征
进行估计和推断。
? 抽样调查 是一种非全面调查。 抽样调查
包括随机抽样调查和非随机抽样调查两
种。
? 抽样推断 是根据抽样调查所获得的样本
信息,对总体的数量特征做出具有一定
可靠程度的估计和推断。
?按随机原则抽取样本;目的在于用样本指标
推断相应的总体指标进行估计、推断;可以
计算和控制抽样误差
?随机抽样调查具有如下特点,
?第一,抽样推断是建立在随机取样的基础上。
?第二,抽样推断是由部分推算总体的一种方
法。
?第三,抽样推断以概率论中的大数法则和中
心极限定理为理论依据。
?第四,抽样推断可以事先计算和控制抽样误
差。
(三)常用的概念、术语
? 1.总体和样本
? 总体是所要认识的研究对象的全体,是由所研
究范围内具有某种共同性质的全体单位所组成
的集合体。
? 样本是从总体中按随机原则抽出的一部份单位
组成的集合体。
? 2.样本单位和样本框架
? 样本单位是调研中最基本的被调查对象单元。
? 样本框架是总体所有样本单位形成的主要栏目
的一览表,可能无法包含所有个体。
(三)常用的概念、术语
3,概率抽样和非概率抽样
概率抽样 — 按随机的原则, 从总体抽出样本 。 每
一个总体单位有一定的可能性被抽中 。
非概率抽样 — 不遵循随机原则, 而是按照人们的
主观愿望抽选样本 。
4,重复抽样和不重复抽样
? 重复抽样,抽一个容量为 的样本时,每次抽出
一个单位进行登记。再放回下总体中继续下次
抽选,直至抽够个样本点 为止。
? 不重复抽样,抽一个容量为 的样本时,每次抽
出一个单位进行登记。不再放回总体中,继续
进行次抽选,直至抽够个 样本点为止。
(三)常用的概念、术语
5,非抽样误差和抽样误差
非抽样误差 — 在统计调查中, 由于主客观原因而
引起的诸如测量, 登录, 计算等误差 。 该误差
可以避免 。
抽样误差 — 在抽样调查中由于抽样的随机性而产
生的样本指标对总体指标的代表性误差 。 样本
虽然是总体的缩影, 但是还不足以完全代表总
体, 从而产生了误差 。 抽样误差是随机抽样固
有的, 可以计算并加以控制, 但 不可以避免 。
二、制定抽样计划的步骤
? 抽样方案设计的一般程序
定
义
总
体
和
抽
样
单
位
制
定
合
适
的
抽
样
框
选
择
抽
样
方
法
确
定
总
体
指
标
估
算
方
法
制
定
实
施
办
法
二、制定抽样计划的步骤
?1.定义总体
?详细说明可提供信息或与所需信息有
关的个体或实体所具有的特性 。 可从
以下几方面进行描述:地域特征, 人
口统计学的特征, 产品或服务使用情
况, 认知程度等 。
?2,选择资料收集方法
?3,选择抽样框
二、制定抽样计划的步骤
4,选择抽样方法
?取决于研究目的, 经济实力, 时间
限制, 欲调查问题的性质 。
?— 概率抽样
总体中每个单位被抽中的概率相等 。
?— 非概率抽样
?从总体中非随机地选择特定要素 (单
位 )。
二、制定抽样计划的步骤
?5,确定样本量
?考虑预算, 抽选规则, 子集量的分析和
传统的统计样本量的计算 。
? — 非概率抽样, 依预算, 抽选规则 ( 凭
经验确定 ), 子集量分析而定 。
? — 对概率抽样, 考虑允许误差的目标水
平和置信水平计算样本量 。
?其他因素:个体差异大小;调查项目多
少;控制质量情况;抽样组织方式
二、制定抽样计划的步骤
?6,制定选择样本单位的操作程序
? 示例:以下指南是有关你在某个街区访问时应走的路径 。
在城市中, 这可能是一个城市街区;在农村, 街区可能是
一块被道路包围的土地 。
? 1,若在你的路线当中遇到死胡同, 继续沿这条路或街道
的另一面向反方向走 。 在可能的地方右拐, 每隔两户住家
访问一户 。
? 2,如果你沿街区走了一圈, 又回到了出发点而没有完成
列出的电话簿上家庭的四个访问, 那么可以试着访问起点
的那一家 。
? 3,如果你调查了整个街区, 还是没有完成所要求的访问,
则继续从街区 ( 或乡间小路 ) 对面附近的第一个住户开始 。
只要这个地址在你的纸上的一个, *” 旁出现就把它当作
你所在区域的接到中的另一个地址, 并访问这一家 。 如果
不是, 就访问左边的一家 。 永远遵守右手法则 ……
?7,抽样计划的实施
抽样的一般程序
确
定
调
查
目
的
和
总
体
范
围
制
定
合
适
的
抽
样
框
抽
选
样
本
单
位
收
集
整
理
数
据
参
数
估
计
和
检
验
最
终
评
估
三、概率抽样方法
? 概率抽样应满足的要求是,
随机性 —— 总体中的所有个体都有同样被抽出的
机会。
可行性 —— 抽样的方法在实际中是可实施的。
信息性 —— 抽得的样本尽可能反映出分析时所期
望的各种信息。
概率抽样包括有 简单随机抽样、系统抽样
(等距抽样)、分层抽样(类型抽样)和整群
抽样 等方法。
三、概率抽样方法 -简单随机抽样
定义:简单随机抽样是对全及总体不经过任何分
组, 排队, 完全按照随机原则从中抽取单位加
以调查的一种抽样技术形式 。
特点:简单随机抽样的特点是在每次抽选中都能
保证总体中每个单位有相等的中选机会 。 在差
异较大的总体中, 简单随机抽样的样本不一定
能保证样本的代表性 。
方法:直接抽选项法, 抽签法, 随机数表法, 使
用计算机模拟抽取 。
三、概率抽样方法 -简单随机抽样
? 抽样概率公式为:抽样概率=样本单位数 /
总体单位数
? — 对 10000中抽 400,若有抽样框, 步骤为,
? (1)对总体的每个单位进行编号, 总体单位
数为 10000的总体可编号为 1~ 10000。
? (2)在随机数表中从任意的一个编号数开始
向上数或向下数或跳跃数选编号, 在 00001
和 10000之间选出 400个 (样本单位数 )。
? (3)在有明确总体单位的数字表中选出的数
字将包括在样本中 。
三、概率抽样方法 -简单随机抽样
三、概率抽样方法 -等距抽样
概念,首先将总体单位按某标志排队, 排队的标
志可以与调查有关, 也可以与调查无关;然后
计算抽样的距离 ;然后随机确定抽样起点;最
后等距离抽出样本点构成样本 。
特点,等距离抽样的一个显著优点是抽取样本方
便易行 。
抽样误差的计算,有关标志排队用分层抽样的公
式估计抽样误差;无关标志排队等同于简单随
机抽样, 所以用简单随机抽样的方法计算 。
三、概率抽样方法 -等距抽样
? 公式:样本距离=总体单位数 /样本单位数
? ( 1)设总体共有 N个单位,现需要从中抽出 n个单位作为
样本。先将总体的 N个单位按与总体特征标志无关的标志
进行排队。
? ( 2)确定取样间隔,将 N划分为 n个单位相等的部分,每
部分间隔为
? ( 3) 决定起点 (i/R),抽样起点的选定有多种方式, 通
常是在第一部分顺序为 1,2,3,…, i…, K个单位中随
机取一个单位 i作为抽样的起点 。 对于总体单位 N是奇数
时, 也可按 R=( K+1) /2算出 R值, 就按某一部分的第 R
个单位作为 抽样起点 。 对于总体单位 N是偶数时, 则按
R=( K+2) /2算出起点位置 。
? ( 4)在第一部分中,随机以 i为起点抽出第一个样本后,
继续在第二部分中抽出第 i+K单位为样本;如此类推,在
第 n部分则抽取第 i+(n-1)K单位为样本。
? 注意:避免总体单位的排列顺序与间隔一致
三、概率抽样方法 -等距抽样
?若以 R为起点,同理顺序地抽出第 R+K
直到 R+( n-1) K单位为样本。
这样一共抽出了 n个单位组成样本,
而且每个样本的间隔都是 K,所以称这
种抽样方法为等距抽样。
三、概率抽样方法 — 分层抽样
概念,分层抽样又称类型抽样 。 首先将总体单位
按某一类型标志分层;然后在各层按随机抽样
的方法分别抽出各层的样本 。
特点,分层抽样在层内是抽样调查, 层间是全面
调查, 所以分层时应该尽量让每层内的变异程
度小, 而层间的变异程度大 。
由于同质性总体比异质性总体抽样误差小,
因此, 分层抽样的方法, 可以得到更大程度的
代表性, 同时, 还可以减少抽样误差 。 但此法
的分层标准不易掌握, 手续较繁 。
分层抽样的抽样误差较简单随机抽样小, 样
本具有很好的代表性 。
三、概率抽样方法 — 分层抽样
三、概率抽样方法 — 分层抽样
分层抽样在各层中抽取的样本也可看成
总的样本数在各层的分摊,它又有三种方
法,
?等比例抽样。即各层所抽样本数占各层总
体单位数的比例相等。
?按各层的离散情况分配样本。某层的离散
程度大,则该层多分摊一些样本。
?最优分配。既考虑到各层的单位数的多少,
又考虑到各层的离散情况。
三、概率抽样方法 — 分层抽样
?程序:把总体各单位分成两个或两个以上
的相互独立的完全的组 (如男性和女性 ),
而后从两个或两个以上的组中简单随机抽
样, 样本相互独立 。
?步骤,
? 首先, 辨明突出的人口统计特征和分类特
征, 这些特征与所研究的行为相关 。
? 第二, 确定在每个层次上总体的比例 。
? 最后, 从每层中抽取独立简单随机样本 。
三、概率抽样方法 -整群抽样
概念:首先将总体划分为若干个群 ;然后按随
机的原则不重复抽出一个或几个群, 在每群中
进行全面调查 。 该调查方法适用于单位较多的
总体 。
特点:与分层抽样相反的, 整群抽样在群内是全
面调查, 在群间是抽样调查 。
整群抽样因为是对中选群的全面调查, 所
以调查单位很集中大大简便抽样工作, 节省经
费开支 。
三、概率抽样方法 -整群抽样
三、概率抽样方法 -整群抽样
?步骤:同质总体被分为相互独立的完全的
较小子集, 而后随机抽选子集构成样本 。
地理区域抽样是典型方式 。
?示例,
?(1)选取这个州内的县以表明不同区域都
有代表性, 县也许是通过与县中家庭数成
正比的方式抽出, 家庭数目较多的县比家
庭数目较少的县抽中的机会要大一点 。
?(2)在样本县中抽住宅区域 。
?(3)在中选住宅区域中抽家庭 。
四、非概率抽样
?指任何不满足概率抽样要求的抽
样 。
?1,便利抽样
?2,判断抽样
?3,配额抽样 (对比分层抽样 )
?4,滚雪球抽样
四、非概率抽样 —— 便利抽样
? 定义:是指研究者根据现实情况, 以自己方便的
形式抽取偶然遇到的人作为调查对象, 或者仅仅
选择那些离得最近的, 最容易找到的人作为调查
对象 。
? 举例:为了调查某市的交通情况,研究者到离他
们最近的 公共汽车站,把当时正在那里等车的人
选作调查对象。其他类似的偶遇抽样还有:在街
口拦住过往行人进行调查;在图书馆阅览室对当
时正在阅读的读者进行调查;在商店门口、展览
大厅、电影院等公众场所向进出往来的顾客、观
众进行的调查;利用报刊杂志向读者进行调查;
老师以他所教的班级的学生作为调查样本的调查
等等。
四、非概率抽样 —— 便利抽样
? 与随机抽样的相似点:都排除了主观因素的影
响, 纯粹依靠客观机遇来抽取对象 。
? 与随机抽样的不同点:偶遇抽样没有保证使总
体中的每一个成员都具有同等的被抽中的概率 。
那些 最先被碰到的, 最容易见到的, 最方便找
的 对象具有比其他对象大得多得机会被我们抽
中 。
? 优缺点:优点 —— 方便省力;缺点 —— 样本的
代表性差,有很大的偶然性,我们不能依赖偶
遇抽样得到的样本来推论总体。
四、非概率抽样 —— 判断抽样
? 定义:调查者根据研究的目标和自己主观的分
析, 来选择和确定调查对象的方法 。
? 研究者依据主观判断选取可以代表总体的个体
作为样本 。 样本的代表性取决于研究者对总体
的了解程度和判断能力 。
? 它是, 有目的的, 选择样本 。 比如, 在问卷涉
计阶段, 为检验问题设计的是否得当, 常有意
的选择一些观点差异悬殊的人作为调查对象 。
又如, 研究者专找那些偏离总体平均水平者作
为调查对象, 其目的是研究什么使他们发生偏
离 。 它的作用在于发现问题, 提出假设, 而不
在于对总体作出概括 。
四、非概率抽样 —— 判断抽样
? 多用于 无法确定总体边界, 或总体规模小, 调
查所涉及的范围较窄, 或调查时间, 人力等条
件有限而难以进行大规模抽样的情况 。
? 在 编制物价指数 时,有关产品项目的选择和样
本地区的决定等,常采用判断抽样。
? 优点:可以充分发挥研究人员的主观能动作用,
特别是当研究者对研究的总体情况比较熟悉,
研究者的分析判断能力较强, 研究方法与技术
十分熟练, 研究的经验比较丰富时, 采用这种
方法往往十分方便 。
? 缺点:样本的代表性难以判断, 不能推论 。
四、非概率抽样 —— 配额抽样 (对
比分层抽样 )
? 它与分层抽样中的比例抽样相似, 也是按调查
对象的某种属性或特征将总体中所有个体分成
若干类或层, 然后在各层中抽样, 样本中各层
( 类 ) 所占比例与他们在总体中所占比例一样 。
? 进行定额抽样时,研究者要尽可能的依据那些
有可能影响研究变量的各种因素来对总体分层,
并找出具有各种不同特征的成员在总体中所占
的比例。然后依据这种划分以及各类成员的比
例去选择调查对象,使样本中的成员在上述各
种因素、各种特征方面的构成和在样本的比例
尽量接近总体情形。
四、非概率抽样 —— 配额抽样 (对
比分层抽样 )
? 例假设某高校有 2000名学生,其中男生占 60%,女生
占 40%;文科学生和理科学生各占 50%;一年级学生
占 40%,二年级、三年级、四年级学生分别占 30%、
20%和 10%。现要用定额抽样方法依上述三个变量抽
取一个规模为 100人的样本。依据总体的构成和样本规
模,我们可得到下列定额表,
男生( 60)
女生( 40)
文科( 30)
理科( 30)
文科( 20)
理科( 20)
年
级
一 二 三 四
一 二 三 四
一 二 三 四
一 二 三 四
人
数
12 9 6 3
12 9 6 3
8 6 4 2
8 6 4 2
四、非概率抽样 —— 配额抽样 (对
比分层抽样 )
? 配额抽样方法的缺陷,
? 1,配额的框架必须十分精确 。 为了做到这一
点, 必须掌握最新的资料, 但这是十分困难的 。
? 2,从某些特定的格子中选择样本时, 可能会
存在偏误 。 因为一个访员如果被要求与五位具
有某些复杂特征的人面谈, 他会本能的避免去
访问要爬七层楼才能找受访者, 破败的家庭和
家养恶犬的人 。
四、非概率抽样 —— 配额抽样 (对
比分层抽样 )
? 配额抽样和分层抽样的区别,—— 本质上的差别 ——
? 二者虽然都依据某些特征对总体进行分层, 但二者的
目的不同, 抽样方法也不同 。
? 定额抽样之所以分层分类, 其目的在于要抽选出一个
总体的, 模拟物,, 其方法则是通过主观的分析来确
定和选择组成这种模拟物的成员 。 也就是说, 定额抽
样注重的是样本与总体在结构比例上的表面一致性 。
? 而分层抽样进行分层, 一方面是要提高各层间的异质
性与同层中的同质性, 另一方面也是为了照顾到某些
比例小的层次, 使得所抽样本的代表性进一步提高,
误差进一步减小 。 而其抽样的方法则是完全根据概率
原则, 排除主观因素, 客观地 。 等概率地到各层中进
行抽样, 这与定额抽样中那种, 按事先规定地条件,
有目的地寻找, 的做法是完全不同的 。
四、非概率抽样 —— 滚雪球抽样
? 定义:当我们无法了解总体情况时, 可以从总
体中的少数成员入手, 对他们进行调查, 向他
们询问还知道哪些符合条件的人;再去找那些
人并询问他们知道的人 。 如同滚雪球一样, 我
们可以找到越来越多具有相同性质的群体成员 。
? 例如,要研究退休老人的生活,可以清晨到公
园去结识几位散步老人,再通过他们结识其朋
友,不用很久,你就可以交上一大批老年朋友。
但是这种方法偏误也很大,那些不好活动、不
爱去公园、不爱和别人交往、喜欢一个人在家
里活动的老人,你就很难把雪球滚到他们那里
去,而他们却代表着另外一种退休后的生活方
式。
四、非概率抽样 —— 滚雪球抽样
? 如果总体不大, 有时用不了几次就会接近饱和
状况, 即后来访问的人再介绍的都是已经访问
过的人 。 但是很可能最后仍有许多个体无法找
到, 还有些个体因某些原因被提供者故意漏掉
不提, 这两者都可能具有某些值得注意的性质,
因而可能产生偏误 。
? 滚雪球抽样是在特定总体的成员难以找的时最
适合的一种抽样方法 。 譬如对获得无家可归者,
流动劳工及非法移民等的样本就十分适用 。
其他的非概率抽样方法,
? 志愿者抽样,
? 从与调查目标有关的志愿者中抽取样本, 如
医疗实验, 媒体座谈讨论节目等只能从志愿者
中抽选参与者 。
? 修正的概率抽样,
? 是概率抽样与非概率抽样的结合 。 在多阶段
概率抽样中, 前几个阶段均采用概率抽样, 在
最后阶段采用非概率抽样的方法 。
? 空间抽样,
? 针对一个变动的总体 。 最重要的是在同一个
时间对整个总体进行抽样, 以防止它的组成经
历太大的变化 。
非概率抽样的优缺点及适用范围,
?非概率抽样不是按照概率均等的原则,
而是根据人们的主观经验或其它条件来
抽取样本。因而,其样本的代表性往往
较小,误差有时相当大,而且这种误差
又无法估计。(非概率抽样由于每个个
体进入样本的概率是未知的,而且由于
排除不了调查者的主观影响,因而无法
说明样本是否重现了总体的结构,)用
这样的样本推论总体是极不可靠的。
非概率抽样的优缺点及适用范围,
? 但是也有其优势,
? 1) 但是在很大情况下, 严格的随机抽样几乎无
法进行, 例如调查对象的总体边界不清而无法
制作抽样框 。 此外有些研究为了符合研究的目
的, 不得不按照需要从总体中抽取少数有代表
性的个体作为样本 。
? 2) 再者, 为了保证随机的原则, 对抽样的操作
过程要求严格, 实施起来比较麻烦, 费时费力,
因此如果调查的目的仅是对问题的初步探索,
获得研究的线索和提出假设, 而不是由样本推
论总体, 采用随机抽样就不一定是必须的 。
? 综上:操作方便、省钱省力,统计上也远较概
率抽样简单,而且若能对调查总体和调查对象
有较好的了解,抽样也可获得相当的成功。
非概率抽样的优缺点及适用范围,
? 适于探索性研究
? 在市场调研中:非概率抽样因其便捷, 经济,
无需抽样框等优点经常被采用 。 非概率抽样可
以用于调查的设计开发, 探索性研究, 分析概
率抽样调查结果等很多方面 。
? 例如, 在调查的设计开发过程中, 调查目标的
系统陈述, 问卷设计, 问卷测试, 试调查, 抽
样设计等环节采用非概率抽样能够便捷地收集
被调查者的各种信息, 有助于调研人员形成想
法, 拓展思路, 得出结论 。 非概率抽样是具有
特定应用价值的抽样方法 。
五, 抽样误差和样本容量
抽样推断 是根据抽样调查所获得
的样本信息,对总体的数量特征做出具有
一定可靠程度的估计和推断。
按随机原则抽取样本;目的在于
用样本指标推断相应的总体指标进行估计
、推断;可以计算和控制抽样误差。
(一)抽样误差
总体参数
样本统计量
样本统计量公式
总体平均数
样本平均数
总体成数
样本成数
总体方差
样本方差
总体标准差
样本标准差
总体参数 — 描述总体数量特征的指标。总体是惟一的,所
以参数也是惟一的;
样本统计量 — 描述样本数量特征的指标,由样本计算而得。
由于样本是随机的,所以样本统计量是随机变量。
非抽样误差 — 在统计调查中, 由于主客观原因
而引起的诸如测量, 登录, 计算等误差 。 该误差
可以避免 。
抽样误差 — 在抽样调查中由于抽样的随机性而
产生的样本指标对总体指标的代表性误差 。 样本
虽然是总体的缩影, 但是还不足以完全代表总体
,从而产生了误差 。 抽样误差是随机抽样固有的
,可以计算并加以控制, 但 不可以避免 。
1.抽样误差的概念
2.抽样平均误差
?
3、抽样误差范围及其可靠程度
抽样误差范围,
就是变动的抽样指标与确定的总体参数之
间的离差的可能范围 。 它是根据概率论, 以一
定的可靠程度保证抽样误差不超过某一给定的
范围, 统计上把这个给定的抽样误差范围叫做
抽样极限误差 。
抽样误差范围的可靠程度,
抽样误差范围 △ 是用一定倍数的抽样平均
误差来表示的, 这个倍数一般用 t表示, 它是
以抽样平均误差为尺度来衡量的相对误差范围,
我们称之为 概率度 。
4、影响抽样误差的因素
?从抽样误差的计算公式中可以看
出,误差大小主要受以下三个方
面因素影响,
?抽样单位数 n的多少,
?总体标志的变异程度 σ 2,
?抽样组织方式和抽样方式。
(二)样本量估计
? 参数估计就是用样本的统计量作为相应的总体
参数 。
? 1,参数的点估计
? 点估计是指直接以样本的统计量作为相应的总
体参数估计量。
? 2、参数的区间估计
? 区间估计就是对于未知的参数 Q,在点估计的基
础上,寻求一个区间使得参数 Q落在这个区间内
具有给定的可信程度。
六、有关抽样设计的几个问题
1.抽样精度问题
2.抽样框问题
? 3.样本容量的确定问题
? 确定样本容量应考虑以下因素,
? —— 用户对抽样推断的可靠程度和精确度的要求 。
? —— 不同的抽样组织方式 。
? —— 总体变量值的差异程度 。
? —— 按上述依据确定的抽样单位数, 还要结合调查
人力, 物力和财力的许可情况加以适当调整, 然后
做出最后的决定 。
? 4.抽样方式的选择问题
? 一般情况下,选择抽样的组织形式时,应考虑调查
精度的要求、调查对象的特点、调查条件的状况。
四、抽样方案的检查
?方案的检查主要有准确性检查和
代表性检查两方面。
抽 样 设 计
本章学习内容
?一、抽样调查的一般问题
?二、抽样计划的步骤
?三、概率抽样方法
?四、非概率抽样方法
?五、抽样误差和样本容量
?六、有关抽样设计的几个问题
本章学习重点与难点
?如何定义总体、确定抽样框
?制定科学合理的抽样计划
?恰当地选择抽样方法进行抽样
?科学确定样本量
一、抽样调查的一般问题
?( 一 ) 抽样的理由和特点
?( 二 ) 抽样调查的概念和分
类
?( 三 ) 常用的概念, 术语
?1,总体, 全域或同质总体
?2,抽样与普查
(一)抽样的理由和特点
? 特点,经济、高效、准确
? 作用,抽样调查是市场调查中应用非常广泛的一
种调查方式。它主要在以下场合应用,
采用抽样进行研究较直接对总体研究有下述优点,
? 经济、省力、省物;
? 能提早汇总研究资料,及时利用研究结果;
? 较适用于研究对象分散的课题;
? 研究对象数量有限,获取资料的手段灵活多样;
? 从某种意义上讲,有时比总体研究更能提高研究
的质量。
? 见书上 51页
(二)抽样调查的概念和分类
?抽样调查是按照一定的程序,从所研究
对象的全体中抽取一部分单位进行调查,
并在一定条件下对研究对象的数量特征
进行估计和推断。
? 抽样调查 是一种非全面调查。 抽样调查
包括随机抽样调查和非随机抽样调查两
种。
? 抽样推断 是根据抽样调查所获得的样本
信息,对总体的数量特征做出具有一定
可靠程度的估计和推断。
?按随机原则抽取样本;目的在于用样本指标
推断相应的总体指标进行估计、推断;可以
计算和控制抽样误差
?随机抽样调查具有如下特点,
?第一,抽样推断是建立在随机取样的基础上。
?第二,抽样推断是由部分推算总体的一种方
法。
?第三,抽样推断以概率论中的大数法则和中
心极限定理为理论依据。
?第四,抽样推断可以事先计算和控制抽样误
差。
(三)常用的概念、术语
? 1.总体和样本
? 总体是所要认识的研究对象的全体,是由所研
究范围内具有某种共同性质的全体单位所组成
的集合体。
? 样本是从总体中按随机原则抽出的一部份单位
组成的集合体。
? 2.样本单位和样本框架
? 样本单位是调研中最基本的被调查对象单元。
? 样本框架是总体所有样本单位形成的主要栏目
的一览表,可能无法包含所有个体。
(三)常用的概念、术语
3,概率抽样和非概率抽样
概率抽样 — 按随机的原则, 从总体抽出样本 。 每
一个总体单位有一定的可能性被抽中 。
非概率抽样 — 不遵循随机原则, 而是按照人们的
主观愿望抽选样本 。
4,重复抽样和不重复抽样
? 重复抽样,抽一个容量为 的样本时,每次抽出
一个单位进行登记。再放回下总体中继续下次
抽选,直至抽够个样本点 为止。
? 不重复抽样,抽一个容量为 的样本时,每次抽
出一个单位进行登记。不再放回总体中,继续
进行次抽选,直至抽够个 样本点为止。
(三)常用的概念、术语
5,非抽样误差和抽样误差
非抽样误差 — 在统计调查中, 由于主客观原因而
引起的诸如测量, 登录, 计算等误差 。 该误差
可以避免 。
抽样误差 — 在抽样调查中由于抽样的随机性而产
生的样本指标对总体指标的代表性误差 。 样本
虽然是总体的缩影, 但是还不足以完全代表总
体, 从而产生了误差 。 抽样误差是随机抽样固
有的, 可以计算并加以控制, 但 不可以避免 。
二、制定抽样计划的步骤
? 抽样方案设计的一般程序
定
义
总
体
和
抽
样
单
位
制
定
合
适
的
抽
样
框
选
择
抽
样
方
法
确
定
总
体
指
标
估
算
方
法
制
定
实
施
办
法
二、制定抽样计划的步骤
?1.定义总体
?详细说明可提供信息或与所需信息有
关的个体或实体所具有的特性 。 可从
以下几方面进行描述:地域特征, 人
口统计学的特征, 产品或服务使用情
况, 认知程度等 。
?2,选择资料收集方法
?3,选择抽样框
二、制定抽样计划的步骤
4,选择抽样方法
?取决于研究目的, 经济实力, 时间
限制, 欲调查问题的性质 。
?— 概率抽样
总体中每个单位被抽中的概率相等 。
?— 非概率抽样
?从总体中非随机地选择特定要素 (单
位 )。
二、制定抽样计划的步骤
?5,确定样本量
?考虑预算, 抽选规则, 子集量的分析和
传统的统计样本量的计算 。
? — 非概率抽样, 依预算, 抽选规则 ( 凭
经验确定 ), 子集量分析而定 。
? — 对概率抽样, 考虑允许误差的目标水
平和置信水平计算样本量 。
?其他因素:个体差异大小;调查项目多
少;控制质量情况;抽样组织方式
二、制定抽样计划的步骤
?6,制定选择样本单位的操作程序
? 示例:以下指南是有关你在某个街区访问时应走的路径 。
在城市中, 这可能是一个城市街区;在农村, 街区可能是
一块被道路包围的土地 。
? 1,若在你的路线当中遇到死胡同, 继续沿这条路或街道
的另一面向反方向走 。 在可能的地方右拐, 每隔两户住家
访问一户 。
? 2,如果你沿街区走了一圈, 又回到了出发点而没有完成
列出的电话簿上家庭的四个访问, 那么可以试着访问起点
的那一家 。
? 3,如果你调查了整个街区, 还是没有完成所要求的访问,
则继续从街区 ( 或乡间小路 ) 对面附近的第一个住户开始 。
只要这个地址在你的纸上的一个, *” 旁出现就把它当作
你所在区域的接到中的另一个地址, 并访问这一家 。 如果
不是, 就访问左边的一家 。 永远遵守右手法则 ……
?7,抽样计划的实施
抽样的一般程序
确
定
调
查
目
的
和
总
体
范
围
制
定
合
适
的
抽
样
框
抽
选
样
本
单
位
收
集
整
理
数
据
参
数
估
计
和
检
验
最
终
评
估
三、概率抽样方法
? 概率抽样应满足的要求是,
随机性 —— 总体中的所有个体都有同样被抽出的
机会。
可行性 —— 抽样的方法在实际中是可实施的。
信息性 —— 抽得的样本尽可能反映出分析时所期
望的各种信息。
概率抽样包括有 简单随机抽样、系统抽样
(等距抽样)、分层抽样(类型抽样)和整群
抽样 等方法。
三、概率抽样方法 -简单随机抽样
定义:简单随机抽样是对全及总体不经过任何分
组, 排队, 完全按照随机原则从中抽取单位加
以调查的一种抽样技术形式 。
特点:简单随机抽样的特点是在每次抽选中都能
保证总体中每个单位有相等的中选机会 。 在差
异较大的总体中, 简单随机抽样的样本不一定
能保证样本的代表性 。
方法:直接抽选项法, 抽签法, 随机数表法, 使
用计算机模拟抽取 。
三、概率抽样方法 -简单随机抽样
? 抽样概率公式为:抽样概率=样本单位数 /
总体单位数
? — 对 10000中抽 400,若有抽样框, 步骤为,
? (1)对总体的每个单位进行编号, 总体单位
数为 10000的总体可编号为 1~ 10000。
? (2)在随机数表中从任意的一个编号数开始
向上数或向下数或跳跃数选编号, 在 00001
和 10000之间选出 400个 (样本单位数 )。
? (3)在有明确总体单位的数字表中选出的数
字将包括在样本中 。
三、概率抽样方法 -简单随机抽样
三、概率抽样方法 -等距抽样
概念,首先将总体单位按某标志排队, 排队的标
志可以与调查有关, 也可以与调查无关;然后
计算抽样的距离 ;然后随机确定抽样起点;最
后等距离抽出样本点构成样本 。
特点,等距离抽样的一个显著优点是抽取样本方
便易行 。
抽样误差的计算,有关标志排队用分层抽样的公
式估计抽样误差;无关标志排队等同于简单随
机抽样, 所以用简单随机抽样的方法计算 。
三、概率抽样方法 -等距抽样
? 公式:样本距离=总体单位数 /样本单位数
? ( 1)设总体共有 N个单位,现需要从中抽出 n个单位作为
样本。先将总体的 N个单位按与总体特征标志无关的标志
进行排队。
? ( 2)确定取样间隔,将 N划分为 n个单位相等的部分,每
部分间隔为
? ( 3) 决定起点 (i/R),抽样起点的选定有多种方式, 通
常是在第一部分顺序为 1,2,3,…, i…, K个单位中随
机取一个单位 i作为抽样的起点 。 对于总体单位 N是奇数
时, 也可按 R=( K+1) /2算出 R值, 就按某一部分的第 R
个单位作为 抽样起点 。 对于总体单位 N是偶数时, 则按
R=( K+2) /2算出起点位置 。
? ( 4)在第一部分中,随机以 i为起点抽出第一个样本后,
继续在第二部分中抽出第 i+K单位为样本;如此类推,在
第 n部分则抽取第 i+(n-1)K单位为样本。
? 注意:避免总体单位的排列顺序与间隔一致
三、概率抽样方法 -等距抽样
?若以 R为起点,同理顺序地抽出第 R+K
直到 R+( n-1) K单位为样本。
这样一共抽出了 n个单位组成样本,
而且每个样本的间隔都是 K,所以称这
种抽样方法为等距抽样。
三、概率抽样方法 — 分层抽样
概念,分层抽样又称类型抽样 。 首先将总体单位
按某一类型标志分层;然后在各层按随机抽样
的方法分别抽出各层的样本 。
特点,分层抽样在层内是抽样调查, 层间是全面
调查, 所以分层时应该尽量让每层内的变异程
度小, 而层间的变异程度大 。
由于同质性总体比异质性总体抽样误差小,
因此, 分层抽样的方法, 可以得到更大程度的
代表性, 同时, 还可以减少抽样误差 。 但此法
的分层标准不易掌握, 手续较繁 。
分层抽样的抽样误差较简单随机抽样小, 样
本具有很好的代表性 。
三、概率抽样方法 — 分层抽样
三、概率抽样方法 — 分层抽样
分层抽样在各层中抽取的样本也可看成
总的样本数在各层的分摊,它又有三种方
法,
?等比例抽样。即各层所抽样本数占各层总
体单位数的比例相等。
?按各层的离散情况分配样本。某层的离散
程度大,则该层多分摊一些样本。
?最优分配。既考虑到各层的单位数的多少,
又考虑到各层的离散情况。
三、概率抽样方法 — 分层抽样
?程序:把总体各单位分成两个或两个以上
的相互独立的完全的组 (如男性和女性 ),
而后从两个或两个以上的组中简单随机抽
样, 样本相互独立 。
?步骤,
? 首先, 辨明突出的人口统计特征和分类特
征, 这些特征与所研究的行为相关 。
? 第二, 确定在每个层次上总体的比例 。
? 最后, 从每层中抽取独立简单随机样本 。
三、概率抽样方法 -整群抽样
概念:首先将总体划分为若干个群 ;然后按随
机的原则不重复抽出一个或几个群, 在每群中
进行全面调查 。 该调查方法适用于单位较多的
总体 。
特点:与分层抽样相反的, 整群抽样在群内是全
面调查, 在群间是抽样调查 。
整群抽样因为是对中选群的全面调查, 所
以调查单位很集中大大简便抽样工作, 节省经
费开支 。
三、概率抽样方法 -整群抽样
三、概率抽样方法 -整群抽样
?步骤:同质总体被分为相互独立的完全的
较小子集, 而后随机抽选子集构成样本 。
地理区域抽样是典型方式 。
?示例,
?(1)选取这个州内的县以表明不同区域都
有代表性, 县也许是通过与县中家庭数成
正比的方式抽出, 家庭数目较多的县比家
庭数目较少的县抽中的机会要大一点 。
?(2)在样本县中抽住宅区域 。
?(3)在中选住宅区域中抽家庭 。
四、非概率抽样
?指任何不满足概率抽样要求的抽
样 。
?1,便利抽样
?2,判断抽样
?3,配额抽样 (对比分层抽样 )
?4,滚雪球抽样
四、非概率抽样 —— 便利抽样
? 定义:是指研究者根据现实情况, 以自己方便的
形式抽取偶然遇到的人作为调查对象, 或者仅仅
选择那些离得最近的, 最容易找到的人作为调查
对象 。
? 举例:为了调查某市的交通情况,研究者到离他
们最近的 公共汽车站,把当时正在那里等车的人
选作调查对象。其他类似的偶遇抽样还有:在街
口拦住过往行人进行调查;在图书馆阅览室对当
时正在阅读的读者进行调查;在商店门口、展览
大厅、电影院等公众场所向进出往来的顾客、观
众进行的调查;利用报刊杂志向读者进行调查;
老师以他所教的班级的学生作为调查样本的调查
等等。
四、非概率抽样 —— 便利抽样
? 与随机抽样的相似点:都排除了主观因素的影
响, 纯粹依靠客观机遇来抽取对象 。
? 与随机抽样的不同点:偶遇抽样没有保证使总
体中的每一个成员都具有同等的被抽中的概率 。
那些 最先被碰到的, 最容易见到的, 最方便找
的 对象具有比其他对象大得多得机会被我们抽
中 。
? 优缺点:优点 —— 方便省力;缺点 —— 样本的
代表性差,有很大的偶然性,我们不能依赖偶
遇抽样得到的样本来推论总体。
四、非概率抽样 —— 判断抽样
? 定义:调查者根据研究的目标和自己主观的分
析, 来选择和确定调查对象的方法 。
? 研究者依据主观判断选取可以代表总体的个体
作为样本 。 样本的代表性取决于研究者对总体
的了解程度和判断能力 。
? 它是, 有目的的, 选择样本 。 比如, 在问卷涉
计阶段, 为检验问题设计的是否得当, 常有意
的选择一些观点差异悬殊的人作为调查对象 。
又如, 研究者专找那些偏离总体平均水平者作
为调查对象, 其目的是研究什么使他们发生偏
离 。 它的作用在于发现问题, 提出假设, 而不
在于对总体作出概括 。
四、非概率抽样 —— 判断抽样
? 多用于 无法确定总体边界, 或总体规模小, 调
查所涉及的范围较窄, 或调查时间, 人力等条
件有限而难以进行大规模抽样的情况 。
? 在 编制物价指数 时,有关产品项目的选择和样
本地区的决定等,常采用判断抽样。
? 优点:可以充分发挥研究人员的主观能动作用,
特别是当研究者对研究的总体情况比较熟悉,
研究者的分析判断能力较强, 研究方法与技术
十分熟练, 研究的经验比较丰富时, 采用这种
方法往往十分方便 。
? 缺点:样本的代表性难以判断, 不能推论 。
四、非概率抽样 —— 配额抽样 (对
比分层抽样 )
? 它与分层抽样中的比例抽样相似, 也是按调查
对象的某种属性或特征将总体中所有个体分成
若干类或层, 然后在各层中抽样, 样本中各层
( 类 ) 所占比例与他们在总体中所占比例一样 。
? 进行定额抽样时,研究者要尽可能的依据那些
有可能影响研究变量的各种因素来对总体分层,
并找出具有各种不同特征的成员在总体中所占
的比例。然后依据这种划分以及各类成员的比
例去选择调查对象,使样本中的成员在上述各
种因素、各种特征方面的构成和在样本的比例
尽量接近总体情形。
四、非概率抽样 —— 配额抽样 (对
比分层抽样 )
? 例假设某高校有 2000名学生,其中男生占 60%,女生
占 40%;文科学生和理科学生各占 50%;一年级学生
占 40%,二年级、三年级、四年级学生分别占 30%、
20%和 10%。现要用定额抽样方法依上述三个变量抽
取一个规模为 100人的样本。依据总体的构成和样本规
模,我们可得到下列定额表,
男生( 60)
女生( 40)
文科( 30)
理科( 30)
文科( 20)
理科( 20)
年
级
一 二 三 四
一 二 三 四
一 二 三 四
一 二 三 四
人
数
12 9 6 3
12 9 6 3
8 6 4 2
8 6 4 2
四、非概率抽样 —— 配额抽样 (对
比分层抽样 )
? 配额抽样方法的缺陷,
? 1,配额的框架必须十分精确 。 为了做到这一
点, 必须掌握最新的资料, 但这是十分困难的 。
? 2,从某些特定的格子中选择样本时, 可能会
存在偏误 。 因为一个访员如果被要求与五位具
有某些复杂特征的人面谈, 他会本能的避免去
访问要爬七层楼才能找受访者, 破败的家庭和
家养恶犬的人 。
四、非概率抽样 —— 配额抽样 (对
比分层抽样 )
? 配额抽样和分层抽样的区别,—— 本质上的差别 ——
? 二者虽然都依据某些特征对总体进行分层, 但二者的
目的不同, 抽样方法也不同 。
? 定额抽样之所以分层分类, 其目的在于要抽选出一个
总体的, 模拟物,, 其方法则是通过主观的分析来确
定和选择组成这种模拟物的成员 。 也就是说, 定额抽
样注重的是样本与总体在结构比例上的表面一致性 。
? 而分层抽样进行分层, 一方面是要提高各层间的异质
性与同层中的同质性, 另一方面也是为了照顾到某些
比例小的层次, 使得所抽样本的代表性进一步提高,
误差进一步减小 。 而其抽样的方法则是完全根据概率
原则, 排除主观因素, 客观地 。 等概率地到各层中进
行抽样, 这与定额抽样中那种, 按事先规定地条件,
有目的地寻找, 的做法是完全不同的 。
四、非概率抽样 —— 滚雪球抽样
? 定义:当我们无法了解总体情况时, 可以从总
体中的少数成员入手, 对他们进行调查, 向他
们询问还知道哪些符合条件的人;再去找那些
人并询问他们知道的人 。 如同滚雪球一样, 我
们可以找到越来越多具有相同性质的群体成员 。
? 例如,要研究退休老人的生活,可以清晨到公
园去结识几位散步老人,再通过他们结识其朋
友,不用很久,你就可以交上一大批老年朋友。
但是这种方法偏误也很大,那些不好活动、不
爱去公园、不爱和别人交往、喜欢一个人在家
里活动的老人,你就很难把雪球滚到他们那里
去,而他们却代表着另外一种退休后的生活方
式。
四、非概率抽样 —— 滚雪球抽样
? 如果总体不大, 有时用不了几次就会接近饱和
状况, 即后来访问的人再介绍的都是已经访问
过的人 。 但是很可能最后仍有许多个体无法找
到, 还有些个体因某些原因被提供者故意漏掉
不提, 这两者都可能具有某些值得注意的性质,
因而可能产生偏误 。
? 滚雪球抽样是在特定总体的成员难以找的时最
适合的一种抽样方法 。 譬如对获得无家可归者,
流动劳工及非法移民等的样本就十分适用 。
其他的非概率抽样方法,
? 志愿者抽样,
? 从与调查目标有关的志愿者中抽取样本, 如
医疗实验, 媒体座谈讨论节目等只能从志愿者
中抽选参与者 。
? 修正的概率抽样,
? 是概率抽样与非概率抽样的结合 。 在多阶段
概率抽样中, 前几个阶段均采用概率抽样, 在
最后阶段采用非概率抽样的方法 。
? 空间抽样,
? 针对一个变动的总体 。 最重要的是在同一个
时间对整个总体进行抽样, 以防止它的组成经
历太大的变化 。
非概率抽样的优缺点及适用范围,
?非概率抽样不是按照概率均等的原则,
而是根据人们的主观经验或其它条件来
抽取样本。因而,其样本的代表性往往
较小,误差有时相当大,而且这种误差
又无法估计。(非概率抽样由于每个个
体进入样本的概率是未知的,而且由于
排除不了调查者的主观影响,因而无法
说明样本是否重现了总体的结构,)用
这样的样本推论总体是极不可靠的。
非概率抽样的优缺点及适用范围,
? 但是也有其优势,
? 1) 但是在很大情况下, 严格的随机抽样几乎无
法进行, 例如调查对象的总体边界不清而无法
制作抽样框 。 此外有些研究为了符合研究的目
的, 不得不按照需要从总体中抽取少数有代表
性的个体作为样本 。
? 2) 再者, 为了保证随机的原则, 对抽样的操作
过程要求严格, 实施起来比较麻烦, 费时费力,
因此如果调查的目的仅是对问题的初步探索,
获得研究的线索和提出假设, 而不是由样本推
论总体, 采用随机抽样就不一定是必须的 。
? 综上:操作方便、省钱省力,统计上也远较概
率抽样简单,而且若能对调查总体和调查对象
有较好的了解,抽样也可获得相当的成功。
非概率抽样的优缺点及适用范围,
? 适于探索性研究
? 在市场调研中:非概率抽样因其便捷, 经济,
无需抽样框等优点经常被采用 。 非概率抽样可
以用于调查的设计开发, 探索性研究, 分析概
率抽样调查结果等很多方面 。
? 例如, 在调查的设计开发过程中, 调查目标的
系统陈述, 问卷设计, 问卷测试, 试调查, 抽
样设计等环节采用非概率抽样能够便捷地收集
被调查者的各种信息, 有助于调研人员形成想
法, 拓展思路, 得出结论 。 非概率抽样是具有
特定应用价值的抽样方法 。
五, 抽样误差和样本容量
抽样推断 是根据抽样调查所获得
的样本信息,对总体的数量特征做出具有
一定可靠程度的估计和推断。
按随机原则抽取样本;目的在于
用样本指标推断相应的总体指标进行估计
、推断;可以计算和控制抽样误差。
(一)抽样误差
总体参数
样本统计量
样本统计量公式
总体平均数
样本平均数
总体成数
样本成数
总体方差
样本方差
总体标准差
样本标准差
总体参数 — 描述总体数量特征的指标。总体是惟一的,所
以参数也是惟一的;
样本统计量 — 描述样本数量特征的指标,由样本计算而得。
由于样本是随机的,所以样本统计量是随机变量。
非抽样误差 — 在统计调查中, 由于主客观原因
而引起的诸如测量, 登录, 计算等误差 。 该误差
可以避免 。
抽样误差 — 在抽样调查中由于抽样的随机性而
产生的样本指标对总体指标的代表性误差 。 样本
虽然是总体的缩影, 但是还不足以完全代表总体
,从而产生了误差 。 抽样误差是随机抽样固有的
,可以计算并加以控制, 但 不可以避免 。
1.抽样误差的概念
2.抽样平均误差
?
3、抽样误差范围及其可靠程度
抽样误差范围,
就是变动的抽样指标与确定的总体参数之
间的离差的可能范围 。 它是根据概率论, 以一
定的可靠程度保证抽样误差不超过某一给定的
范围, 统计上把这个给定的抽样误差范围叫做
抽样极限误差 。
抽样误差范围的可靠程度,
抽样误差范围 △ 是用一定倍数的抽样平均
误差来表示的, 这个倍数一般用 t表示, 它是
以抽样平均误差为尺度来衡量的相对误差范围,
我们称之为 概率度 。
4、影响抽样误差的因素
?从抽样误差的计算公式中可以看
出,误差大小主要受以下三个方
面因素影响,
?抽样单位数 n的多少,
?总体标志的变异程度 σ 2,
?抽样组织方式和抽样方式。
(二)样本量估计
? 参数估计就是用样本的统计量作为相应的总体
参数 。
? 1,参数的点估计
? 点估计是指直接以样本的统计量作为相应的总
体参数估计量。
? 2、参数的区间估计
? 区间估计就是对于未知的参数 Q,在点估计的基
础上,寻求一个区间使得参数 Q落在这个区间内
具有给定的可信程度。
六、有关抽样设计的几个问题
1.抽样精度问题
2.抽样框问题
? 3.样本容量的确定问题
? 确定样本容量应考虑以下因素,
? —— 用户对抽样推断的可靠程度和精确度的要求 。
? —— 不同的抽样组织方式 。
? —— 总体变量值的差异程度 。
? —— 按上述依据确定的抽样单位数, 还要结合调查
人力, 物力和财力的许可情况加以适当调整, 然后
做出最后的决定 。
? 4.抽样方式的选择问题
? 一般情况下,选择抽样的组织形式时,应考虑调查
精度的要求、调查对象的特点、调查条件的状况。
四、抽样方案的检查
?方案的检查主要有准确性检查和
代表性检查两方面。