第六章 抽样调查
第一节 抽样调查的意义及基本概念
一、抽样调查的意义
一 般所讲的抽样调查,即指狭义的抽样
调查 (随机抽样 ):按照随机原则从总体中抽
取一部分单位进行观察,并运用数理统计的
原理,以被抽取的那部分单位的数量特征为
代表,对总体作出数量上的推断分析。
二、抽样调查的适用范围
抽 样调查方法是市场经济国家在调查方法
上的必然选择,和普查相比,它具有准确度高、
成本低、速度快、应用面广等优点。
1.实 际工作不可能进行全面调查观察,而又需要了解
其全面资料的事物;
2.虽 可进行全面调查观察,但比较困难或并不必要;
3.对 普查或全面调查统计资料的质量进行检查和修正;
4.抽 样方法适用于对大量现象的观察,即组成事物
总体的单位数量较多的情况;
5.利 用抽样推断的方法,可以对于某种总体的假设
进行检验,判断这种假设的真伪,以决定取舍。
一般适用于以下范围:
三、抽样调查的基本概念
(一 ) 全及总体和抽样总体 (总体和样本 )
全 及总体:所要调查观察的全部事物。
总体单位数用 N表示。
抽 样总体:抽取出来调查观察的单位。
抽样总体的单位数用 n表示。
n ≥ 30 大样本
n < 30 小样本
(二 ) 全及指标和抽样指标 (总体指标和样本指标 )
全 及指标:全及总体的那些指标。
抽 样指标:抽样总体的那些指标。
xX
pP
所 谓, 就 是 用 抽 样 指 标 来 推 断 全 及 指 标 。
是 用 抽 样 平 均 数 推 断 全 及 平 均 数, 从 而 推 断
总 体 标 志 总 量
是 用 抽 样 成 数 推 断 全 及 成 数, 从 而 推 断 总
推 断
一
体二
单 位 总 量
(三)重复抽样和不重复抽样
以上每一种组织方式又有不同的抽取样本方
法 (机械抽样和整群抽样没有重复抽样 ):
重复抽样,又称有放回抽样。
不重复抽样,又称不放回抽样。
1 1 1
5 0 0 0 5 0 0 0 5 0 0 0 LL,,,例
1 1 1
5 0 0 0 4 9 9 9 4 9 9 8 LL,,,例
22 s
s
?
?
?
?
?
?
?
在 抽 样 调 查 中 应 用 的 总 体 指 标 和 样 本 指 标 还 有,
方 差, 总 体 方 差, 样 本 方 差
标 准 差, 总 体 标 准 差, 样 本 标 准 差
抽 样框 —— 即总体单位的名单,是指对可以选择作为
样本的总体单位列出名册或顺序编号,以
确定总体的抽样范围和结构。
样 本个数 —— 指从总体中可能抽取的样本的数量。
样 本容量 —— 指一个样本所包括的单位数。
第二节 抽样平均误差
一、抽样误差的概念及其影响程度
在统计调查中,调查资料与实际情况不一致,
两者的偏离称为统计误差。
?
?
??
? ?
? ??
???
? ? ?
登 记 误 差
系 统 性 误 差
统 计 误 差
代 表 性 误 差 实 际 误 差
随 机 误 差
抽 样 平 均 误 差
抽样误差 即指随机误差,这种误差是抽
样调查固有的误差,是无法避免的。
x X p P??
抽 样 误 差 就 是 指 样 本 指 标 和 总 体 指 标 之 间 数
量 上 的 差 别, 即, 。
抽样误差的影响因素:
1,全 及总体标志变异程度。 —— 正比关系
2,抽 样单位数目的多少。 —— 反比关系
3,不 同的抽样方式。
4,不 同的抽样组织形式。
抽样误差的作用:
1,在 于说明样本指标的代表性大小。
误差大,则样本指标代表性低;
误差小,则样本指标代表性高;
误差等于 0,则样本指标和总体指标一样大。
2,说 明样本指标和总体指标相差的一般范围。
二、抽样平均误差
抽样平均误差 实际上是样本指标的标准差。
通常用 μ 表示。在 N中抽出 n样本,从排列组
合中可以有各种各样的样本组:
1,如果是重复抽样:
1( 2 ) nnN N nDC ???考 虑 顺 序 的 重 复 抽 样,不
虑 顺 序 的 重 复 抽 样, 样 本 种 数
种
考
5
( 1 ) ( )
5 0 3 1 2,5 0 0,0 0 0
nn
NBN ?
?例
2,如果是不重复抽样:
5
50
!( 1 ) ( 1 ) ( 1 )
( ) !
5 0 4 9 4 8 4 7 4 6 2 5 4,2 5 1,2 0 0 ( )
n
N
NA N N N n
Nn
A
? ? ? ? ?
?
? ? ? ? ? ?
L虑 顺 序 的 不 重 复 抽 样,
种
考
例
5
5 50
50
!
( 2 )
! ( ) !
2 5 4,2 5 1,2 0 0
2,118,760 ( )
5 ! 5 4 3 2 1
n
N
N
C
n N n
A
C
?
?
? ? ?
? ? ? ?
考 虑 顺 序 的 不 重 复 抽 样,
种
不
例
2
10 20 30 40 50
X 30
()
5 25 ( )
??
五 户 家 庭 三 月 份 购 买 某 商 品 的 支 出,
元, 元, 元, 元, 元
元
现 从 五 户 中 抽 取 二 户 作 调 查,
如 果 为 重 复 抽 样 考 虑 顺 序
= 种
排 列 组 合 如 下,
例
10 10 10 -20 400
10 20 15 -15 225
10 30 20 -10 100
10 40 25 -5 25
10 50 30 0 0
20 10 15 -15 225
20 20 20 -10 100
20 30 25 -5 25
20 40 30 0 0
20 50 35 5 25
30 10 20 -10 100
30 20 25 -5 25
30 30 30 0 0
x样 本 平 均 数 xX?误 差 ? ?2xX?抽 取 样 本
x样 本 平 均 数 xX?误 差 ? ?2xX?抽 取 样 本
30 40 35 5 25
30 50 40 10 100
40 10 25 -5 25
40 20 30 0 0
40 30 35 5 25
40 40 40 10 100
40 50 45 15 225
50 10 30 0 0
50 20 35 5 25
50 30 40 10 100
50 40 45 15 225
50 50 50 20 400
合 计 - - 2 500
接左:
)(
)(10
25
2 5 0 0
)(
)(
2
为样本配合总数
元
抽样平均误差
n
n
Xx
x
???
? ?
???
以上资料编成次数分配表如下:
x 样本数 f (即次数分配 )
10 1 -20
15 2 -15
20 3 -10
25 4 -5
30 5 0
35 4 5
40 3 10
45 2 15
50 1 20
合计 25 -
xX?
2( x X )
f
f
? ???
?
?
∴ 抽样误差 是所有可能出现的样本指标的标
准差。它是由于抽样的随机性而产生的样本
指标与总体指标之间的平均离差。
2
5
54 1 0 ( ) X 3 0 ( )
21C
?? ? ?
? Q种 元
抽取样本 样本平均数 离差
10 20 15 -15 225
10 30 20 -10 100
10 40 25 -5 25
10 50 30 0 0
20 30 25 -5 25
20 40 30 0 0
20 50 35 5 25
30 40 35 5 25
30 50 40 10 100
40 50 45 15 225
合 计 - - 750
x xX? ? ?2xX?
)(66.810750)( 元抽样平均误差 ????? n )X-x( 2?? x
上例五户中抽取二户调查,如采取不考虑顺序的不重复抽
样方法,则:
三、抽样平均误差的计算
(一 ) 平均数的抽样平均误差
或
x
x
2
n
n
?
??
?
??
取得 σ 的途径有:
1,用 过去全面调查或抽样调查的资料,若同时有 n个
σ 的资料,应选用数值较大的那个;
2,用 样本标准差 S代替全及标准差 σ ;
3,在 大规模调查前,先搞个小规模的试验性的调查来
确定 S,代替 σ ;
4,用 估计的方法。
x
220
2 ( )100 小 时? ? ? ? ?
某灯泡厂从一天所生产的产品 10,000个中抽
取 100个检查其寿命,得平均寿命为 2000小时
(一般为重复抽样 ),根据以往资料,σ =20小
时,
根据以往资料,产品质量不太稳定,若 σ =200
小时,
)(20 小时于是,???
例
2.不 重复抽样:
2
x
Nn
n N 1
?
????
?
2
x
Nn
n
( 1 )
nN
?
? ? ?
但 实 际 中, 往 往 很 大, 很 小, 故 改 用 下 列 公 式,
x
4 0 0 1 0 0
( 1 ) 1,9 9 ( )
1 0 0 1 0 0 0 0
? ? ? ? ?
上 例 中, 若 为 不 重 复 抽 样, 则,
小 时
(二 ) 成数的抽样平均误差
已证明得,成数的方差为 p(1-p)
p
p
p ( 1 p )
n
p ( 1 p ) n
( 1 )
nN
?
?
??
?
? ? ?
在 重 复 抽 样 情 况 下,
在 不 重 复 抽 样 情 况 下,
%1374.1)
15000
150
1(
150
)98.01(98.0
)1(
)1(
%14.1
150
)98.01(98.0)1(
%98
150
147
150 15000
???
??
??
?
?
?
??
?
?
??
??
??
N
n
n
pp
n
pp
p
nN
p
p
?
?
若按不重复抽样方式:
?
某玻璃器皿厂某日生产 15000只印花玻璃杯,现
按重复抽样方式从中抽取 150只进行质量检验,结
果有 147只合格,其余 3只为不合格品,试求这批印
花玻璃杯合格率 (成数 )的抽样平均误差。
例
第三节 抽样推断
一、点估计和区间估计
(一 )点估计
x X p
P
是 由 样 本 指 标 直 接 代 替 全 及 指 标, 不 考 虑
任 何 抽 样 误 差 因 素 。 即 用 直 接 代 表, 用
直 接 代 表 。
就
100
x 1 0 0 2 p 9 8 %
X 1 0 0 2 P 9 8 %
??
??
在 全 部 产 品 中, 抽 取 件 进 行 仔 细 检 查, 得
到 平 均 重 量 克, 合 格 率, 我 们 直 接 推
断 全 部 产 品 的 平 均 重 量 克, 合 格 率 。
例
(二 )区间估计
是 根据样本指标和抽样误差去推断
全及指标的可能范围,它能说清楚估计
的准确程度和把握程度。
由于区间估计所表示的是一个可能的范围,而不
是一个绝对可靠的范围。就是说,推断全及指标在这
个范围内只有一定的把握程度。用数学的语言讲,就
是有一定的概率。
根据中心极限定理,得知当 n足够大时,抽样总
体为正态分布,根据正态分布规律可知,样本指标是
以一定的概率落在某一特定的区间内,统计上把这个
给定的区间叫抽样极限误差,也称置信区间,即在概
率 F(t)的保证下:
抽样极限误差 △ =tμ,( t为概率度)
当 F(t)=68.27%时,抽样极限误差等于抽样平均误差的 1倍 (t=1);
当 F(t)=95.45%时,抽样极限误差等于抽样平均误差的 2倍 (t=2);
当 F(t)=99.73%时,抽样极限误差等于抽样平均误差的 3倍 (t=3);
可见,抽样极限误差,即扩大或缩小了以后的抽样误
差范围。
例
二、全及平均数和全及成数的推断
xx
pp
F (t )
x X x
p P p
( ) ( ) t
? ? ? ? ? ?
? ? ? ? ? ?
? ? ?
在 概 率 的 保 证 下,
即, 全 及 平 均 数 成 数 抽 样 平 均 数 成 数
)4 0 3, 5 7 (
1 0 0 0 03)9 9, 7 3 % ( t ( 3 )
)4 0 2, 3 8 (
1 0 0 0 02)9 5, 4 5 % ( t
千克
亩产量的可能范围为:
亩小麦的平均保证,该农场若以概率
千克
亩产量的可能范围为:
亩小麦的平均保证,该农场若以概率
千克
43.39619.13400
62.39719.12400
)2(
)(19.1)
1 0 0 0 0
100
1(
100
12
)1()1(
22
????
?
???????
?
?????
X
xX
N
n
n
x
x
?
?
某农场进行小麦产量的抽样调查,该农场小麦播种面积为 10000亩,
采用不重复的简单随机抽样从中选 100亩作为样本,进行实割实测,得到
样本的平均亩产量为 400千克,样本标准差为 12千克。
则:
~
~
例 1
p
p
380
p 100% 95%
400
P ( 1 P ) 95% ( 1 95% )
1.09%
n 400
95.45 %
P p 95% 2 1.09%
92.82 % 97.18 %
? ? ?
??
? ? ? ?
? ? ? ? ? ?
?
在 概 率 的 保 证 下, 全 及 一 级 品 率,
某机械厂日产某种产品 8000件,现采用纯随机不重复抽样方式 (按重
复抽样公式计算 ),从中抽取 400件进行观察,其中有 380件为一级品,试
以概率 95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。
则:抽样一级品率:
~
例 2
三、全及总体总量指标的推断
(一 ) 直接推断法
抽样平均数 (成数 )× 总体单位数 =总体标志总量
1.如 果采用点估计方法:上例 1中,400× 10000=400(万千克 )
如果用区间估计方法:上例 1中该农场小麦总产量的范围为:
t=2,(397.62 ~ 402.38)× 10000=397.62 ~ 402.38(万千克 )
t=3,(396.43 ~ 403.57)× 10000=396.43 ~ 403.57(万千克 )
2.上 例 2中,全部一级品数量的范围为:
(92.82% ~ 97.18%)× 8000=7425.6 ~ 7774.4(件 )
(二 ) 修正系数法
就 是用抽样所得的调查结果同有关资料
对比的系数来修正全面统计资料时采用的一
种方法。
某村 6000农户,2001年年末统计养猪头数,从下往上报的是
9000头,现抽 10% (600户 )的农户再复查一下,发现有漏报,也有
重报。按 600户,原来数字是 890头,实际复查为 935头,故总的来
说,是少报。
)(9 4 5 5%)06.51(9 0 0 0
6 0 0 0%06.5
%06.5
890
45
)(45890935
头
农户养猪头数,即:的系数来修正可用
差错率
头
???
?
???
??
例 1
)(09.3226%)248.01(1.3218
%248.0
03.415
03.1
万元年报工资总额
正工资总额,则:根据这一系数,再来修
差错率
????
???
某市房地局,年报工资总额 3218.1万元。
现抽查 14个单位,年报,415.03万元
多报,0.44万元
少报,1.47万元
抵冲后 1.47-0.44=1.03(万元 )
例 2
第四节 抽样设计与抽样组织形式
一、抽样设计方案
(一)抽样方案设计
(二)抽样框
二、抽样的组织形式
(一)简单随机抽样 (纯随机抽样 )
即从总体单位中不加任何分组、排队,
完全随机地抽取调查单位。
随机抽选可有各种不同的具体做法,如:
1.直接抽选法;
2.抽签法;
3.随机数码表法;
1、重复抽样
(一 ) 平均数的抽样平均误差
或
x
x
2
n
n
?
??
?
??
1.重 复抽样
x
220
2 ( )100 小 时? ? ? ? ?
某灯泡厂从一天所生产的产品 10,000个中抽
取 100个检查其寿命,得平均寿命为 2000小时
(一般为重复抽样 ),根据以往资料,σ =20小
时,
根据以往资料,产品质量不太稳定,若 σ =200
小时,
)(20 小时于是,???
例
2.不 重复抽样:
2
x
Nn
n N 1
?
????
?
2
x
Nn
n
( 1 )
nN
?
? ? ?
但 实 际 中, 往 往 很 大, 很 小, 故 改 用 下 列 公 式,
x
4 0 0 1 0 0
( 1 ) 1,9 9 ( )
1 0 0 1 0 0 0 0
? ? ? ? ?
上 例 中, 若 为 不 重 复 抽 样, 则,
小 时
成数的抽样平均误差
已证明得,成数的方差为 p(1-p)
p
p
p ( 1 p )
n
p ( 1 p ) n
( 1 )
nN
?
?
??
?
? ? ?
在 重 复 抽 样 情 况 下,
在 不 重 复 抽 样 情 况 下,
(二)类型抽样 (分类抽样 )
先对总体各单位按一定标志加以分类
(层 ),然后再从各类 (层 )中按随机原则抽
取样本,组成一个总的样本。
类型的划分:
一 是必须有清楚的划类界限;
二 是必须知道各类中的单位数目和比例;
三 是分类型的数目不宜太多。
类型抽样的好处是:
样 本代表性高、抽样误差小、抽样调查
成本较低。如果抽样误差的要求相同的话则
抽样数目可以减少。
两种类型:
1.等 比例类型抽样 (类型比例抽样 );
2.不 等比例类型抽样 (类型适宜抽样 )。
%1374.1)
15000
150
1(
150
)98.01(98.0
)1(
)1(
%14.1
150
)98.01(98.0)1(
%98
150
147
150 15000
???
??
??
?
?
?
??
?
?
??
??
??
N
n
n
pp
n
pp
p
nN
p
p
?
?
若按不重复抽样方式:
?
某玻璃器皿厂某日生产 15000只印花玻璃杯,现
按重复抽样方式从中抽取 150只进行质量检验,结
果有 147只合格,其余 3只为不合格品,试求这批印
花玻璃杯合格率 (成数 )的抽样平均误差。
例
类型抽样的抽样平均误差
在 重 复 抽 样 情 况 下,
为 各 组 的 总 体 单 位 数
为 全 及 总 体 单 位 数, 即
为 分 类 数 目
平 均 组 内 方 差
2
i
x
2
ii
2
i
k
i
i1
i
n
N N
N N N
N
k
( )
?
?
??
?
? ? ? ?
?
2
i
x
n ( 1 )
nN
?? ? ?在 不 重 复 抽 样 情 况 下,
重 复 抽 样
在 成 数 情 况 下
:
:
p
p ( 1 p )
n
?
??
不 重 复 抽 样, p p ( 1 p ) n( 1 )
nN
?? ? ?
某农场种小麦 12000公顷,其中平原 3600公顷,丘陵 6000
公顷,山地 2400公顷,现用类型抽样法调查 1200公顷,以各
种麦田占全农场面积的比重分配抽样面积数量。
麦田类型抽样的平均误差计算表
类 型 全场播种面积
(公顷 )
抽样调
查面积
(公顷)
单位面积
产量不均
匀程度指
标 (千克 )
符 号 Ni ni σ i
丘陵地区 6000 600 750 33750000
0
平原地区 3600 360 840 25401600
0
山 地 2400 240 1000 24000000
0
合 计 12000 1200 - 83151600
0
ii n2?
例
i i i
i
p
p ( 1 p ) n 186
P ( 1 P ) 1 5,5 %
n 1 2 0 0
p ( 1 p ) n 0,1 5 5 1 2 0 0
( 1 ) ( 1 ) 1,0 7 8 %
n N 1 2 0 0 1 2 0 0 0
??
? ? ? ?
?
?
? ? ? ? ? ?
高产麦田比重的平均误差计算表
类别 高产田
比重 (%)
非高产田
比重 (%)
麦田不均匀
程度指标 (%)
抽样调查
面积 (公顷 ) pi(1-pi)ni
符号 pi 1-pi pi(1-pi) ni
丘陵 80 20 16 600 96.0
平原 90 10 9 360 32.4
山地 60 40 24 240 57.6
合计 - - - 1200 186
2
2
2
2
2
ii
i
i
ii
i
i
x
n 831516000
6929 30( )
n 1200
N
N
n
( 1 )
nN
6929 30 1200
( 1 ) 519.6 975 22.8 ( )
1200 1200 0
??
? ? ? ?
?
????
??
??
??
?
? ? ?
? ? ? ?
千 克
或
千 克
(三)机械抽样 (等距抽样 )
先 将全及总体的所有单位按某一标志
顺序排队,然后按相等的距离抽取样本单
位。
排列次序用的标志有两种:
1,选 择标志与抽样调查所研究内容无关,
称无关标志排队。
2,选 择标志与抽样调查所研究的内容有关,
称有关标志排队。
研究工人的平均收入水平时,按工号排队。例
研究工人的生活水平,按工人月工资额高
低排队。
例
机械抽样按样本单位抽选的方法不
同,可分为三种:
1.随 机起点等距抽样
k k k
k+a 2k+a (n-1)k+a
a
k
(k为抽取间隔 )
示意图:
2.半 距起点等距抽样
k k k
k
(k为抽取间隔 )
2
k
2
kk?
22
kk?
2)1(
kkn ??
示意图:
3.对 称等距抽样
示意图:
k k k
2k-a 2k+a 4k-a 4k+a
a
k
(k为抽取间隔 )
机械抽样的好处:
1,可 以使抽样过程大大简化,减轻抽样的
工作量;
2,如 果用有关标志排队,还可以缩小抽样
误差,提高抽样推断效果。
机械抽样,实际上是一种特殊的类
型抽样。因为,如果在类型抽样中,把
总体划分为若干相等部分,每个部分只
抽一个样本,在这种情况下,则类型抽
样就成了机械抽样。
机械抽样 (等距抽样 )的抽样平均误差
1.若 按无关标志排队
公式用以上纯随机抽样的公式,一般采用
不重复抽样公式,x
p
2
n
( 1 )
nN
p ( 1 p ) n
( 1 )
nN
?
? ? ?
?
? ? ?
为 简 便 起 见, 也 可 采 用 重 复 抽 样 公 式 。
2,若 按有关标志排队
2
x
p
n
p ( 1 p )
n
???
?
??
公式用类型抽样的公式:
(四)整群抽样
整群抽样 即从全及总体中成群地抽取样本单位,
对抽中的群内的所有单位都进行观察。
整群抽样的好处,组织工作比较简单方便,
适用于一些特殊的研究对象。其不足之处是,一般比
其它抽样方式的抽样误差大。
整群抽样的抽样平均误差
整群抽样的抽样平均误差受三个因素影响:
(1)抽 出的群数 (r)多少 (反比关系 )
(2)群 间方差 ( ) (正比关系 )2 ?
计算方法如下:
为 全 及 总 体 各 群 的 平 均 数
为 全 及 平 均 数
或, 为 抽 样 各 群 的 平 均 数
为 抽 样 各 群 的 总 平 均 数
为 全 及 总 体 各 群 的 成 数
为 全 及 总 体 的 成 数
2
2
x
2
2
x
2
2
p
2
p
r
i
ii1
r
i
ii1
r
i
ii1
( x x )
x
r
x
( x x ) r
x
r
x
( p p )
p
r p
?
?
?
?
?
?
?
??
?
??
??
? ??
?
??
??
?
或, 为 抽 样 各 群 的 成 数
为 抽 样 各 群 的 总 成 数
2
r
i
ii1
( p p ) r
p
r p
?
??
??
?
??
? ??
(3) 抽 样方法
2
x
2
p
x
p
R r r
R ( 1 )
R 1 R
r
( 1 )
rR
r
( 1 )
rR
?
?
?
?
?
?
? ? ?
? ? ?
整 群 抽 样 都 采 用 不 重 复 抽 样 。 所 以 在 计 算 抽 样 误 差 时 要 使 用
修 正 系 数, 当 的 数 目 较 大 时, 可 用 来 代 替 。
整 群 抽 样 的 抽 样 平 均 误 差 计 算 公 式 为,
假如某一机器大量生产某一种零件,现每隔一小时抽取 5分钟
产品进行检验,用以检查产品的合格率,检查结果如下:
ipp? 2i( p p ) r?
合格率 群数 r pi pir
80% 2 0.80 1.6 -0.0996 0.01984
85% 4 0.85 3.4 -0.0496 0.00984
90% 12 0.90 10.8 0.0004 …( 太小不计 )
95% 3 0.95 2.85 0.0504 0.00762
98% 3 0.98 2.94 0.0804 0.01939
合计 24 - 21.59 - 0.05669
2
2
p
2
p
r
i
i1
p
pr 21,5 9
0,89 96
r 24
( p p ) r
0,05 66 9
0,00 23 62
r 24
r 0,00 23 62 24
( 1 ) ( 1 ) 0,00 95 ( 0,95 % )
r R 24 28 8
p
?
?
?
? ? ?
?
??
? ? ? ? ?
?
? ? ? ? ? ? ? ?
样 本 群 平 均 合 格 率
群 间 方 差
或
例
以上抽样平均误差的公式归纳如下:
? ?
? ? ? ?
? ?
2
p
x
22
22
x
2
p
nn
p 1- p
n
( 1) 1
N
( 2 )
p 1- p p 1- p
( 3 )
p 1- p
? ? ? ?
?
??
??
?
??
??
??
???
???
???
???
,最 基 本 的 是,
若 为, 乘 以 -
若
不 重 复 抽 样
类 型 抽 样
整
为,
若 为 群 抽 样,
n
NR
r
???
???
(五)多阶段抽样
即把抽样本单位的过程分为两个或几个
阶段来进行。
(如果一次就直接抽选出具体样本单位,这叫单阶
段抽样)具体讲,① 先抽大单位 (可以用类型抽样
或机械抽样 ),②再在大单位中抽小单位 (可用整
群抽样或简单随机抽样 ),③小单位中再抽更小的
单位;而不是一次就直接抽取基层的调查单位。
三、样本数目的确定
(一)、影响必要抽样数目的因素
2
1,
σ P ( 1 P ) ( )?
体 各 单 位 的 标 志 变 异 程 度,
即 或 的 大 小 正 比
总
2, ( )?许 误 差 的 大 小 反 比允
3, t ( )率 度 的 数 值 正 比概
4, 样 方 式 和 组 织 形 式抽
1,简单随机抽样
:
重 复 抽 样
22
2
t
n
?
?
?
2
2
t P ( 1 P )n ??
?
不 重 复 抽 样,
22
2 2 2
N t
n
Nt
??
? ? ?
(二)必要抽样数目的计算公式
2
22
N P ( 1 P )tn
N t P ( 1 P )
??
? ? ?
2、类型抽样
22 ; P ( 1 - P ) P ( 1 - P )? ? ? ?
22
2
2
2
t
n
t P ( 1 P )
n
?
?
?
?
?
?
:重 复 抽 样
22
2 2 2
2
22
Nt
n
Nt
Nt P ( 1 P )
n
N t P ( 1 P )
?
?
? ? ?
?
?
? ? ?
不 重 样,复 抽
3、整群抽样
2 2 2 2ppxxn r ; N R ; ; ? ? ? ? ? ? ? ?
22
x
2 2 2
xx
22
p
2 2 2
pp
Rt
r
Rt
Rt
r
Rt
?
?
? ? ?
?
?
? ? ?
不,重 复 抽 样
等距抽样的抽样数目,在有总体差异
程度和比重的全面资料时,可采用类型抽
样的公式;没有总体的全面资料时,可采
用简单随机抽样的公式。
建筑工地打土方工人 4000人,需测定平均每人工作量,要求误差
范围不超过 0.2M3,并需有 99.73%保证程度。根据过去资料 σ =1.5,
求样本数应是多少?
)(13 4 4
)5.1(340 0 0)1.0(
40 0 0)5.1(3
)1.0(
2
1
)(450
)5.1(340 0 0)2.0(
40 0 0)5.1(3
5.132.040 0 0
222
22
3
222
22
222
22
人则
,保证程度不变即若误差范围缩小
人
,,,解:
?
??
??
?
?
??
??
?
??
?
?????
n
M
tN
Nt
n
tN
?
?
??
例 1
)(8267.825
)9.01(9.0210000)02.0(
10000)9.01(9.02
P)-P ( 1t
P ) N-P ( 1t
n
)(900
)02.0(
)9.01(9.02P)-P ( 1t
n
)2( %45.95)( %2%9010000
22
2
22
p
2
2
2
2
p
2
支
在不重复抽样条件下:
支在重复抽样条件下:
,,解:
??
?????
????
?
??
?
?
???
?
?
?
??????
N
ttFPN
p
?
某金笔厂月产 10000支金笔,以前多次抽样调查一等品率为
90%,现在要求误差范围在 2%之内,可靠程度达 95.45%,问必须抽
取多少单位数?
例 2
阅读材料六
? 阅读材料六,doc
End of Chapter 6
第一节 抽样调查的意义及基本概念
一、抽样调查的意义
一 般所讲的抽样调查,即指狭义的抽样
调查 (随机抽样 ):按照随机原则从总体中抽
取一部分单位进行观察,并运用数理统计的
原理,以被抽取的那部分单位的数量特征为
代表,对总体作出数量上的推断分析。
二、抽样调查的适用范围
抽 样调查方法是市场经济国家在调查方法
上的必然选择,和普查相比,它具有准确度高、
成本低、速度快、应用面广等优点。
1.实 际工作不可能进行全面调查观察,而又需要了解
其全面资料的事物;
2.虽 可进行全面调查观察,但比较困难或并不必要;
3.对 普查或全面调查统计资料的质量进行检查和修正;
4.抽 样方法适用于对大量现象的观察,即组成事物
总体的单位数量较多的情况;
5.利 用抽样推断的方法,可以对于某种总体的假设
进行检验,判断这种假设的真伪,以决定取舍。
一般适用于以下范围:
三、抽样调查的基本概念
(一 ) 全及总体和抽样总体 (总体和样本 )
全 及总体:所要调查观察的全部事物。
总体单位数用 N表示。
抽 样总体:抽取出来调查观察的单位。
抽样总体的单位数用 n表示。
n ≥ 30 大样本
n < 30 小样本
(二 ) 全及指标和抽样指标 (总体指标和样本指标 )
全 及指标:全及总体的那些指标。
抽 样指标:抽样总体的那些指标。
xX
pP
所 谓, 就 是 用 抽 样 指 标 来 推 断 全 及 指 标 。
是 用 抽 样 平 均 数 推 断 全 及 平 均 数, 从 而 推 断
总 体 标 志 总 量
是 用 抽 样 成 数 推 断 全 及 成 数, 从 而 推 断 总
推 断
一
体二
单 位 总 量
(三)重复抽样和不重复抽样
以上每一种组织方式又有不同的抽取样本方
法 (机械抽样和整群抽样没有重复抽样 ):
重复抽样,又称有放回抽样。
不重复抽样,又称不放回抽样。
1 1 1
5 0 0 0 5 0 0 0 5 0 0 0 LL,,,例
1 1 1
5 0 0 0 4 9 9 9 4 9 9 8 LL,,,例
22 s
s
?
?
?
?
?
?
?
在 抽 样 调 查 中 应 用 的 总 体 指 标 和 样 本 指 标 还 有,
方 差, 总 体 方 差, 样 本 方 差
标 准 差, 总 体 标 准 差, 样 本 标 准 差
抽 样框 —— 即总体单位的名单,是指对可以选择作为
样本的总体单位列出名册或顺序编号,以
确定总体的抽样范围和结构。
样 本个数 —— 指从总体中可能抽取的样本的数量。
样 本容量 —— 指一个样本所包括的单位数。
第二节 抽样平均误差
一、抽样误差的概念及其影响程度
在统计调查中,调查资料与实际情况不一致,
两者的偏离称为统计误差。
?
?
??
? ?
? ??
???
? ? ?
登 记 误 差
系 统 性 误 差
统 计 误 差
代 表 性 误 差 实 际 误 差
随 机 误 差
抽 样 平 均 误 差
抽样误差 即指随机误差,这种误差是抽
样调查固有的误差,是无法避免的。
x X p P??
抽 样 误 差 就 是 指 样 本 指 标 和 总 体 指 标 之 间 数
量 上 的 差 别, 即, 。
抽样误差的影响因素:
1,全 及总体标志变异程度。 —— 正比关系
2,抽 样单位数目的多少。 —— 反比关系
3,不 同的抽样方式。
4,不 同的抽样组织形式。
抽样误差的作用:
1,在 于说明样本指标的代表性大小。
误差大,则样本指标代表性低;
误差小,则样本指标代表性高;
误差等于 0,则样本指标和总体指标一样大。
2,说 明样本指标和总体指标相差的一般范围。
二、抽样平均误差
抽样平均误差 实际上是样本指标的标准差。
通常用 μ 表示。在 N中抽出 n样本,从排列组
合中可以有各种各样的样本组:
1,如果是重复抽样:
1( 2 ) nnN N nDC ???考 虑 顺 序 的 重 复 抽 样,不
虑 顺 序 的 重 复 抽 样, 样 本 种 数
种
考
5
( 1 ) ( )
5 0 3 1 2,5 0 0,0 0 0
nn
NBN ?
?例
2,如果是不重复抽样:
5
50
!( 1 ) ( 1 ) ( 1 )
( ) !
5 0 4 9 4 8 4 7 4 6 2 5 4,2 5 1,2 0 0 ( )
n
N
NA N N N n
Nn
A
? ? ? ? ?
?
? ? ? ? ? ?
L虑 顺 序 的 不 重 复 抽 样,
种
考
例
5
5 50
50
!
( 2 )
! ( ) !
2 5 4,2 5 1,2 0 0
2,118,760 ( )
5 ! 5 4 3 2 1
n
N
N
C
n N n
A
C
?
?
? ? ?
? ? ? ?
考 虑 顺 序 的 不 重 复 抽 样,
种
不
例
2
10 20 30 40 50
X 30
()
5 25 ( )
??
五 户 家 庭 三 月 份 购 买 某 商 品 的 支 出,
元, 元, 元, 元, 元
元
现 从 五 户 中 抽 取 二 户 作 调 查,
如 果 为 重 复 抽 样 考 虑 顺 序
= 种
排 列 组 合 如 下,
例
10 10 10 -20 400
10 20 15 -15 225
10 30 20 -10 100
10 40 25 -5 25
10 50 30 0 0
20 10 15 -15 225
20 20 20 -10 100
20 30 25 -5 25
20 40 30 0 0
20 50 35 5 25
30 10 20 -10 100
30 20 25 -5 25
30 30 30 0 0
x样 本 平 均 数 xX?误 差 ? ?2xX?抽 取 样 本
x样 本 平 均 数 xX?误 差 ? ?2xX?抽 取 样 本
30 40 35 5 25
30 50 40 10 100
40 10 25 -5 25
40 20 30 0 0
40 30 35 5 25
40 40 40 10 100
40 50 45 15 225
50 10 30 0 0
50 20 35 5 25
50 30 40 10 100
50 40 45 15 225
50 50 50 20 400
合 计 - - 2 500
接左:
)(
)(10
25
2 5 0 0
)(
)(
2
为样本配合总数
元
抽样平均误差
n
n
Xx
x
???
? ?
???
以上资料编成次数分配表如下:
x 样本数 f (即次数分配 )
10 1 -20
15 2 -15
20 3 -10
25 4 -5
30 5 0
35 4 5
40 3 10
45 2 15
50 1 20
合计 25 -
xX?
2( x X )
f
f
? ???
?
?
∴ 抽样误差 是所有可能出现的样本指标的标
准差。它是由于抽样的随机性而产生的样本
指标与总体指标之间的平均离差。
2
5
54 1 0 ( ) X 3 0 ( )
21C
?? ? ?
? Q种 元
抽取样本 样本平均数 离差
10 20 15 -15 225
10 30 20 -10 100
10 40 25 -5 25
10 50 30 0 0
20 30 25 -5 25
20 40 30 0 0
20 50 35 5 25
30 40 35 5 25
30 50 40 10 100
40 50 45 15 225
合 计 - - 750
x xX? ? ?2xX?
)(66.810750)( 元抽样平均误差 ????? n )X-x( 2?? x
上例五户中抽取二户调查,如采取不考虑顺序的不重复抽
样方法,则:
三、抽样平均误差的计算
(一 ) 平均数的抽样平均误差
或
x
x
2
n
n
?
??
?
??
取得 σ 的途径有:
1,用 过去全面调查或抽样调查的资料,若同时有 n个
σ 的资料,应选用数值较大的那个;
2,用 样本标准差 S代替全及标准差 σ ;
3,在 大规模调查前,先搞个小规模的试验性的调查来
确定 S,代替 σ ;
4,用 估计的方法。
x
220
2 ( )100 小 时? ? ? ? ?
某灯泡厂从一天所生产的产品 10,000个中抽
取 100个检查其寿命,得平均寿命为 2000小时
(一般为重复抽样 ),根据以往资料,σ =20小
时,
根据以往资料,产品质量不太稳定,若 σ =200
小时,
)(20 小时于是,???
例
2.不 重复抽样:
2
x
Nn
n N 1
?
????
?
2
x
Nn
n
( 1 )
nN
?
? ? ?
但 实 际 中, 往 往 很 大, 很 小, 故 改 用 下 列 公 式,
x
4 0 0 1 0 0
( 1 ) 1,9 9 ( )
1 0 0 1 0 0 0 0
? ? ? ? ?
上 例 中, 若 为 不 重 复 抽 样, 则,
小 时
(二 ) 成数的抽样平均误差
已证明得,成数的方差为 p(1-p)
p
p
p ( 1 p )
n
p ( 1 p ) n
( 1 )
nN
?
?
??
?
? ? ?
在 重 复 抽 样 情 况 下,
在 不 重 复 抽 样 情 况 下,
%1374.1)
15000
150
1(
150
)98.01(98.0
)1(
)1(
%14.1
150
)98.01(98.0)1(
%98
150
147
150 15000
???
??
??
?
?
?
??
?
?
??
??
??
N
n
n
pp
n
pp
p
nN
p
p
?
?
若按不重复抽样方式:
?
某玻璃器皿厂某日生产 15000只印花玻璃杯,现
按重复抽样方式从中抽取 150只进行质量检验,结
果有 147只合格,其余 3只为不合格品,试求这批印
花玻璃杯合格率 (成数 )的抽样平均误差。
例
第三节 抽样推断
一、点估计和区间估计
(一 )点估计
x X p
P
是 由 样 本 指 标 直 接 代 替 全 及 指 标, 不 考 虑
任 何 抽 样 误 差 因 素 。 即 用 直 接 代 表, 用
直 接 代 表 。
就
100
x 1 0 0 2 p 9 8 %
X 1 0 0 2 P 9 8 %
??
??
在 全 部 产 品 中, 抽 取 件 进 行 仔 细 检 查, 得
到 平 均 重 量 克, 合 格 率, 我 们 直 接 推
断 全 部 产 品 的 平 均 重 量 克, 合 格 率 。
例
(二 )区间估计
是 根据样本指标和抽样误差去推断
全及指标的可能范围,它能说清楚估计
的准确程度和把握程度。
由于区间估计所表示的是一个可能的范围,而不
是一个绝对可靠的范围。就是说,推断全及指标在这
个范围内只有一定的把握程度。用数学的语言讲,就
是有一定的概率。
根据中心极限定理,得知当 n足够大时,抽样总
体为正态分布,根据正态分布规律可知,样本指标是
以一定的概率落在某一特定的区间内,统计上把这个
给定的区间叫抽样极限误差,也称置信区间,即在概
率 F(t)的保证下:
抽样极限误差 △ =tμ,( t为概率度)
当 F(t)=68.27%时,抽样极限误差等于抽样平均误差的 1倍 (t=1);
当 F(t)=95.45%时,抽样极限误差等于抽样平均误差的 2倍 (t=2);
当 F(t)=99.73%时,抽样极限误差等于抽样平均误差的 3倍 (t=3);
可见,抽样极限误差,即扩大或缩小了以后的抽样误
差范围。
例
二、全及平均数和全及成数的推断
xx
pp
F (t )
x X x
p P p
( ) ( ) t
? ? ? ? ? ?
? ? ? ? ? ?
? ? ?
在 概 率 的 保 证 下,
即, 全 及 平 均 数 成 数 抽 样 平 均 数 成 数
)4 0 3, 5 7 (
1 0 0 0 03)9 9, 7 3 % ( t ( 3 )
)4 0 2, 3 8 (
1 0 0 0 02)9 5, 4 5 % ( t
千克
亩产量的可能范围为:
亩小麦的平均保证,该农场若以概率
千克
亩产量的可能范围为:
亩小麦的平均保证,该农场若以概率
千克
43.39619.13400
62.39719.12400
)2(
)(19.1)
1 0 0 0 0
100
1(
100
12
)1()1(
22
????
?
???????
?
?????
X
xX
N
n
n
x
x
?
?
某农场进行小麦产量的抽样调查,该农场小麦播种面积为 10000亩,
采用不重复的简单随机抽样从中选 100亩作为样本,进行实割实测,得到
样本的平均亩产量为 400千克,样本标准差为 12千克。
则:
~
~
例 1
p
p
380
p 100% 95%
400
P ( 1 P ) 95% ( 1 95% )
1.09%
n 400
95.45 %
P p 95% 2 1.09%
92.82 % 97.18 %
? ? ?
??
? ? ? ?
? ? ? ? ? ?
?
在 概 率 的 保 证 下, 全 及 一 级 品 率,
某机械厂日产某种产品 8000件,现采用纯随机不重复抽样方式 (按重
复抽样公式计算 ),从中抽取 400件进行观察,其中有 380件为一级品,试
以概率 95.45%的可靠程度推断全部产品的一级品率及一级品数量的范围。
则:抽样一级品率:
~
例 2
三、全及总体总量指标的推断
(一 ) 直接推断法
抽样平均数 (成数 )× 总体单位数 =总体标志总量
1.如 果采用点估计方法:上例 1中,400× 10000=400(万千克 )
如果用区间估计方法:上例 1中该农场小麦总产量的范围为:
t=2,(397.62 ~ 402.38)× 10000=397.62 ~ 402.38(万千克 )
t=3,(396.43 ~ 403.57)× 10000=396.43 ~ 403.57(万千克 )
2.上 例 2中,全部一级品数量的范围为:
(92.82% ~ 97.18%)× 8000=7425.6 ~ 7774.4(件 )
(二 ) 修正系数法
就 是用抽样所得的调查结果同有关资料
对比的系数来修正全面统计资料时采用的一
种方法。
某村 6000农户,2001年年末统计养猪头数,从下往上报的是
9000头,现抽 10% (600户 )的农户再复查一下,发现有漏报,也有
重报。按 600户,原来数字是 890头,实际复查为 935头,故总的来
说,是少报。
)(9 4 5 5%)06.51(9 0 0 0
6 0 0 0%06.5
%06.5
890
45
)(45890935
头
农户养猪头数,即:的系数来修正可用
差错率
头
???
?
???
??
例 1
)(09.3226%)248.01(1.3218
%248.0
03.415
03.1
万元年报工资总额
正工资总额,则:根据这一系数,再来修
差错率
????
???
某市房地局,年报工资总额 3218.1万元。
现抽查 14个单位,年报,415.03万元
多报,0.44万元
少报,1.47万元
抵冲后 1.47-0.44=1.03(万元 )
例 2
第四节 抽样设计与抽样组织形式
一、抽样设计方案
(一)抽样方案设计
(二)抽样框
二、抽样的组织形式
(一)简单随机抽样 (纯随机抽样 )
即从总体单位中不加任何分组、排队,
完全随机地抽取调查单位。
随机抽选可有各种不同的具体做法,如:
1.直接抽选法;
2.抽签法;
3.随机数码表法;
1、重复抽样
(一 ) 平均数的抽样平均误差
或
x
x
2
n
n
?
??
?
??
1.重 复抽样
x
220
2 ( )100 小 时? ? ? ? ?
某灯泡厂从一天所生产的产品 10,000个中抽
取 100个检查其寿命,得平均寿命为 2000小时
(一般为重复抽样 ),根据以往资料,σ =20小
时,
根据以往资料,产品质量不太稳定,若 σ =200
小时,
)(20 小时于是,???
例
2.不 重复抽样:
2
x
Nn
n N 1
?
????
?
2
x
Nn
n
( 1 )
nN
?
? ? ?
但 实 际 中, 往 往 很 大, 很 小, 故 改 用 下 列 公 式,
x
4 0 0 1 0 0
( 1 ) 1,9 9 ( )
1 0 0 1 0 0 0 0
? ? ? ? ?
上 例 中, 若 为 不 重 复 抽 样, 则,
小 时
成数的抽样平均误差
已证明得,成数的方差为 p(1-p)
p
p
p ( 1 p )
n
p ( 1 p ) n
( 1 )
nN
?
?
??
?
? ? ?
在 重 复 抽 样 情 况 下,
在 不 重 复 抽 样 情 况 下,
(二)类型抽样 (分类抽样 )
先对总体各单位按一定标志加以分类
(层 ),然后再从各类 (层 )中按随机原则抽
取样本,组成一个总的样本。
类型的划分:
一 是必须有清楚的划类界限;
二 是必须知道各类中的单位数目和比例;
三 是分类型的数目不宜太多。
类型抽样的好处是:
样 本代表性高、抽样误差小、抽样调查
成本较低。如果抽样误差的要求相同的话则
抽样数目可以减少。
两种类型:
1.等 比例类型抽样 (类型比例抽样 );
2.不 等比例类型抽样 (类型适宜抽样 )。
%1374.1)
15000
150
1(
150
)98.01(98.0
)1(
)1(
%14.1
150
)98.01(98.0)1(
%98
150
147
150 15000
???
??
??
?
?
?
??
?
?
??
??
??
N
n
n
pp
n
pp
p
nN
p
p
?
?
若按不重复抽样方式:
?
某玻璃器皿厂某日生产 15000只印花玻璃杯,现
按重复抽样方式从中抽取 150只进行质量检验,结
果有 147只合格,其余 3只为不合格品,试求这批印
花玻璃杯合格率 (成数 )的抽样平均误差。
例
类型抽样的抽样平均误差
在 重 复 抽 样 情 况 下,
为 各 组 的 总 体 单 位 数
为 全 及 总 体 单 位 数, 即
为 分 类 数 目
平 均 组 内 方 差
2
i
x
2
ii
2
i
k
i
i1
i
n
N N
N N N
N
k
( )
?
?
??
?
? ? ? ?
?
2
i
x
n ( 1 )
nN
?? ? ?在 不 重 复 抽 样 情 况 下,
重 复 抽 样
在 成 数 情 况 下
:
:
p
p ( 1 p )
n
?
??
不 重 复 抽 样, p p ( 1 p ) n( 1 )
nN
?? ? ?
某农场种小麦 12000公顷,其中平原 3600公顷,丘陵 6000
公顷,山地 2400公顷,现用类型抽样法调查 1200公顷,以各
种麦田占全农场面积的比重分配抽样面积数量。
麦田类型抽样的平均误差计算表
类 型 全场播种面积
(公顷 )
抽样调
查面积
(公顷)
单位面积
产量不均
匀程度指
标 (千克 )
符 号 Ni ni σ i
丘陵地区 6000 600 750 33750000
0
平原地区 3600 360 840 25401600
0
山 地 2400 240 1000 24000000
0
合 计 12000 1200 - 83151600
0
ii n2?
例
i i i
i
p
p ( 1 p ) n 186
P ( 1 P ) 1 5,5 %
n 1 2 0 0
p ( 1 p ) n 0,1 5 5 1 2 0 0
( 1 ) ( 1 ) 1,0 7 8 %
n N 1 2 0 0 1 2 0 0 0
??
? ? ? ?
?
?
? ? ? ? ? ?
高产麦田比重的平均误差计算表
类别 高产田
比重 (%)
非高产田
比重 (%)
麦田不均匀
程度指标 (%)
抽样调查
面积 (公顷 ) pi(1-pi)ni
符号 pi 1-pi pi(1-pi) ni
丘陵 80 20 16 600 96.0
平原 90 10 9 360 32.4
山地 60 40 24 240 57.6
合计 - - - 1200 186
2
2
2
2
2
ii
i
i
ii
i
i
x
n 831516000
6929 30( )
n 1200
N
N
n
( 1 )
nN
6929 30 1200
( 1 ) 519.6 975 22.8 ( )
1200 1200 0
??
? ? ? ?
?
????
??
??
??
?
? ? ?
? ? ? ?
千 克
或
千 克
(三)机械抽样 (等距抽样 )
先 将全及总体的所有单位按某一标志
顺序排队,然后按相等的距离抽取样本单
位。
排列次序用的标志有两种:
1,选 择标志与抽样调查所研究内容无关,
称无关标志排队。
2,选 择标志与抽样调查所研究的内容有关,
称有关标志排队。
研究工人的平均收入水平时,按工号排队。例
研究工人的生活水平,按工人月工资额高
低排队。
例
机械抽样按样本单位抽选的方法不
同,可分为三种:
1.随 机起点等距抽样
k k k
k+a 2k+a (n-1)k+a
a
k
(k为抽取间隔 )
示意图:
2.半 距起点等距抽样
k k k
k
(k为抽取间隔 )
2
k
2
kk?
22
kk?
2)1(
kkn ??
示意图:
3.对 称等距抽样
示意图:
k k k
2k-a 2k+a 4k-a 4k+a
a
k
(k为抽取间隔 )
机械抽样的好处:
1,可 以使抽样过程大大简化,减轻抽样的
工作量;
2,如 果用有关标志排队,还可以缩小抽样
误差,提高抽样推断效果。
机械抽样,实际上是一种特殊的类
型抽样。因为,如果在类型抽样中,把
总体划分为若干相等部分,每个部分只
抽一个样本,在这种情况下,则类型抽
样就成了机械抽样。
机械抽样 (等距抽样 )的抽样平均误差
1.若 按无关标志排队
公式用以上纯随机抽样的公式,一般采用
不重复抽样公式,x
p
2
n
( 1 )
nN
p ( 1 p ) n
( 1 )
nN
?
? ? ?
?
? ? ?
为 简 便 起 见, 也 可 采 用 重 复 抽 样 公 式 。
2,若 按有关标志排队
2
x
p
n
p ( 1 p )
n
???
?
??
公式用类型抽样的公式:
(四)整群抽样
整群抽样 即从全及总体中成群地抽取样本单位,
对抽中的群内的所有单位都进行观察。
整群抽样的好处,组织工作比较简单方便,
适用于一些特殊的研究对象。其不足之处是,一般比
其它抽样方式的抽样误差大。
整群抽样的抽样平均误差
整群抽样的抽样平均误差受三个因素影响:
(1)抽 出的群数 (r)多少 (反比关系 )
(2)群 间方差 ( ) (正比关系 )2 ?
计算方法如下:
为 全 及 总 体 各 群 的 平 均 数
为 全 及 平 均 数
或, 为 抽 样 各 群 的 平 均 数
为 抽 样 各 群 的 总 平 均 数
为 全 及 总 体 各 群 的 成 数
为 全 及 总 体 的 成 数
2
2
x
2
2
x
2
2
p
2
p
r
i
ii1
r
i
ii1
r
i
ii1
( x x )
x
r
x
( x x ) r
x
r
x
( p p )
p
r p
?
?
?
?
?
?
?
??
?
??
??
? ??
?
??
??
?
或, 为 抽 样 各 群 的 成 数
为 抽 样 各 群 的 总 成 数
2
r
i
ii1
( p p ) r
p
r p
?
??
??
?
??
? ??
(3) 抽 样方法
2
x
2
p
x
p
R r r
R ( 1 )
R 1 R
r
( 1 )
rR
r
( 1 )
rR
?
?
?
?
?
?
? ? ?
? ? ?
整 群 抽 样 都 采 用 不 重 复 抽 样 。 所 以 在 计 算 抽 样 误 差 时 要 使 用
修 正 系 数, 当 的 数 目 较 大 时, 可 用 来 代 替 。
整 群 抽 样 的 抽 样 平 均 误 差 计 算 公 式 为,
假如某一机器大量生产某一种零件,现每隔一小时抽取 5分钟
产品进行检验,用以检查产品的合格率,检查结果如下:
ipp? 2i( p p ) r?
合格率 群数 r pi pir
80% 2 0.80 1.6 -0.0996 0.01984
85% 4 0.85 3.4 -0.0496 0.00984
90% 12 0.90 10.8 0.0004 …( 太小不计 )
95% 3 0.95 2.85 0.0504 0.00762
98% 3 0.98 2.94 0.0804 0.01939
合计 24 - 21.59 - 0.05669
2
2
p
2
p
r
i
i1
p
pr 21,5 9
0,89 96
r 24
( p p ) r
0,05 66 9
0,00 23 62
r 24
r 0,00 23 62 24
( 1 ) ( 1 ) 0,00 95 ( 0,95 % )
r R 24 28 8
p
?
?
?
? ? ?
?
??
? ? ? ? ?
?
? ? ? ? ? ? ? ?
样 本 群 平 均 合 格 率
群 间 方 差
或
例
以上抽样平均误差的公式归纳如下:
? ?
? ? ? ?
? ?
2
p
x
22
22
x
2
p
nn
p 1- p
n
( 1) 1
N
( 2 )
p 1- p p 1- p
( 3 )
p 1- p
? ? ? ?
?
??
??
?
??
??
??
???
???
???
???
,最 基 本 的 是,
若 为, 乘 以 -
若
不 重 复 抽 样
类 型 抽 样
整
为,
若 为 群 抽 样,
n
NR
r
???
???
(五)多阶段抽样
即把抽样本单位的过程分为两个或几个
阶段来进行。
(如果一次就直接抽选出具体样本单位,这叫单阶
段抽样)具体讲,① 先抽大单位 (可以用类型抽样
或机械抽样 ),②再在大单位中抽小单位 (可用整
群抽样或简单随机抽样 ),③小单位中再抽更小的
单位;而不是一次就直接抽取基层的调查单位。
三、样本数目的确定
(一)、影响必要抽样数目的因素
2
1,
σ P ( 1 P ) ( )?
体 各 单 位 的 标 志 变 异 程 度,
即 或 的 大 小 正 比
总
2, ( )?许 误 差 的 大 小 反 比允
3, t ( )率 度 的 数 值 正 比概
4, 样 方 式 和 组 织 形 式抽
1,简单随机抽样
:
重 复 抽 样
22
2
t
n
?
?
?
2
2
t P ( 1 P )n ??
?
不 重 复 抽 样,
22
2 2 2
N t
n
Nt
??
? ? ?
(二)必要抽样数目的计算公式
2
22
N P ( 1 P )tn
N t P ( 1 P )
??
? ? ?
2、类型抽样
22 ; P ( 1 - P ) P ( 1 - P )? ? ? ?
22
2
2
2
t
n
t P ( 1 P )
n
?
?
?
?
?
?
:重 复 抽 样
22
2 2 2
2
22
Nt
n
Nt
Nt P ( 1 P )
n
N t P ( 1 P )
?
?
? ? ?
?
?
? ? ?
不 重 样,复 抽
3、整群抽样
2 2 2 2ppxxn r ; N R ; ; ? ? ? ? ? ? ? ?
22
x
2 2 2
xx
22
p
2 2 2
pp
Rt
r
Rt
Rt
r
Rt
?
?
? ? ?
?
?
? ? ?
不,重 复 抽 样
等距抽样的抽样数目,在有总体差异
程度和比重的全面资料时,可采用类型抽
样的公式;没有总体的全面资料时,可采
用简单随机抽样的公式。
建筑工地打土方工人 4000人,需测定平均每人工作量,要求误差
范围不超过 0.2M3,并需有 99.73%保证程度。根据过去资料 σ =1.5,
求样本数应是多少?
)(13 4 4
)5.1(340 0 0)1.0(
40 0 0)5.1(3
)1.0(
2
1
)(450
)5.1(340 0 0)2.0(
40 0 0)5.1(3
5.132.040 0 0
222
22
3
222
22
222
22
人则
,保证程度不变即若误差范围缩小
人
,,,解:
?
??
??
?
?
??
??
?
??
?
?????
n
M
tN
Nt
n
tN
?
?
??
例 1
)(8267.825
)9.01(9.0210000)02.0(
10000)9.01(9.02
P)-P ( 1t
P ) N-P ( 1t
n
)(900
)02.0(
)9.01(9.02P)-P ( 1t
n
)2( %45.95)( %2%9010000
22
2
22
p
2
2
2
2
p
2
支
在不重复抽样条件下:
支在重复抽样条件下:
,,解:
??
?????
????
?
??
?
?
???
?
?
?
??????
N
ttFPN
p
?
某金笔厂月产 10000支金笔,以前多次抽样调查一等品率为
90%,现在要求误差范围在 2%之内,可靠程度达 95.45%,问必须抽
取多少单位数?
例 2
阅读材料六
? 阅读材料六,doc
End of Chapter 6