第三章 简单随机抽样第一节 简单随机抽样概述第二节 参数估计第三节 样本容量的确定第一节 简单随机抽样概述一、简单随机抽样的概念
定义之一:简单随机抽样就是从总体 N个抽样单元中,一次抽取 n个单元时,使全部可能的种不同的样本被抽到的概率均相等,即都等于
1/A。
定义之二:简单随机抽样是从总体的 N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽 n次,以抽中的 n个单元组成简单随机样本。
按简单随机抽样,抽到的样本称为简单随机样本。
二、简单随机抽样的具体实施方法
(一 )抽签法抽签法是先对总体 N个抽样单元分别编上 1到 N的号码,再制作与之相对应的 N
个号签并充分摇匀后,从中随机地抽取 n
个号签 (可以是一次抽取 n个号签,也可以一次抽一个号签,连续抽 n次 ),与抽中号签号码相同的 n个单元即为抽中的单元,由其组成简单随机样本。
(二 )随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。
1、随机数表及其使用方法随机数表是由 0到 9的 10个阿拉伯数字进行随机排列组成的表。
所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。
随机数表的用途很多,不仅可以组织等概样本,也可组织不等概样本。
简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:
①每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。
②设总体容量为 N,若 N的位数为 r,则一定要从 r位数中抽取。遇到 1至 N的数可直接使用;
遇到其它的数不能直接使用。
③当 r≥2时,可从含有起点数字左边的 r位数开始,也可从右边的 r位数开始。可从起点开始向下抽取,也可向右抽取。但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,
中途不能变更。
④在重复抽样时,遇到重复的数字应重复使用;
在不重复抽样时,遇到重复的数字应舍去不用。
随机数表法一般分下述几步:
第一步:确定起点页码;
第二步:确定起点的行数与列数;
第三步:确定所抽样本单元的号码。
快速抽取的常用方法有:
余数法。如果 N是个 r位数,由 1到 随机取一个数 R,而 是 N的最大 r位整倍数,则编号等于 R除 N所得余数的单元便被选中。
商数法。
修正余数法。
修正商数法。
独立选择数位法。
N?
N?
N?
2、随机数骰子及其使用方法随机数骰子是由均匀材料制成的正二十面体 (通常的骰子是正六面体,即正方体 ),面上刻有 0- 9的数字各 2个。
(随机数骰子的图形特征)
两个有名的试验试验一:随意数试验。
让六个人写下 100个自己随意想到的三位数,将这些数内的 0、
1,…,9数字列成次数分布表如右。
可见,六个人都对数字存在偏好,如第一个人更加偏好数字 4、
3,0;第二个人则偏好数字 1,8,4;
等等。
这种由于数字偏好所引起的偏估类型可称之为数字偏误。
数字 人的编号 期望次数1 2 3 4 5 6
0
1
2
3
4
5
6
7
8
9
50 1 38 29 34 59
29 48 30 57 33 27
20 19 28 31 20 22
50 39 34 34 24 24
55 40 28 29 15 27
20 18 31 15 30 25
30 26 26 27 31 15
12 39 32 35 42 35
25 42 30 23 44 37
9 28 23 20 27 29
30
30
30
30
30
30
30
30
30
30
合计 300 300 300 300 300 300 300
试验二:着色试验。
让四个人将 10× 10方格的纸板着色,可供选择的颜色有蓝、绿、红、白和黄色五种,对每一个四分象限来说,规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示,如
(4,6)代表第四列第六行的方格。请四个人对这 100个方格随意选择行列号,
而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下:
四个人对方格着色的次数分布颜色 人的编号 期望数字1 2 3 4
蓝绿红白黄
14 26 20 12
28 21 15 21
15 12 20 22
25 23 20 19
18 18 25 26
20
20
20
20
20
合计 100 100 100 100 100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色,第二个人偏爱蓝色等。这种由于对颜色偏好所引起的偏估类型,可称之为颜色偏误。
结论:随意抽样 ≠ 随机抽样
三、简单随机抽样的方法评估
1.简单随机抽样对总体不加任何限制,
等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,
是等概率抽样的特殊类型。
2.因为是等概率抽取样本,所以要求总体在所研究的主要标志上同质性或齐性
(共性 )较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。但是,在社会经济现象中,这种均匀总体是很少见的。
因此,实际工作中很少单纯使用简单随机抽样方法。
3.直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。
4.简单随机抽样要求在抽样前编制出抽样框,
并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至在某些情况下干脆无法使用。
结论:在此基础上研究其它抽样技术显得更加重要。
第二节 总体参数的估计一、基本原理
Y
-
设总体包含有 U 1,U 2,U 3,U 4 四个单元,其观测值分别为 Y 1,Y 2,Y 3,Y 4,则总体均值为 Y
= ( Y 1 + Y 2 + Y 3 + Y 4 )/4 。现用简单随机抽样法抽一个单元并以其观测值来估计总体均值,则这四个单元每个都是可能的样本,而每个可能样本被抽中的概率均为四分之一。每个样本观测值本身就可以当作总体均值的一个估计值。显然,根据不同样本估计的结果与总体均值之间通常并不一致,而是存在一个的误差。下表列出了抽到不同样本时的结果 ( 表 3,3),
表 3.3 包含四个单元的总体内抽一个单元的可能结果样本编号 样 本 样本观测值
Y 的估计值 Y? - Y
1 U 1 Y 1 Y 1 Y
1 - Y
2 U 2 Y 2 Y 2 Y
2 - Y
3 U 3 Y 3 Y 3 Y
3 - Y
4 U 4 Y 4 Y 4 Y
4 - Y
样本 U 1 U 2 U 1 U 3 U 1 U 4 U 2 U 3 U 2 U 4 U 3 U 4
样本观测值 Y 1,Y 2 Y 1,Y 3 Y 1,Y 4 Y 2,Y 3 Y 2,Y 4 Y 3,Y 4
样本均值
2
21 YY?
2
31 YY?
2
41 YY?
2
32 YY?
2
42 YY?
2
43 YY?
可见,样本均值 y 是 Y 的一个无偏估计量,因为

3
1
4 3
1
4
)(12 1)2(61)(
i ij i ij
ji
ji YYYYyE
而每个单元均可能在三个样本内出现,故

4
1
3
12
1
)(
i
i
YYyE
因此,
y
的样本方差为

3
1
4 3
1
4
22222
)2(
24
1
)(
4
1
6
1
)()(
i ij i ij
jijiji
YYYYYYYYyEyV
又已知
2
iY
(i= 1,2,3,4) 在三个样本内出现,而

3
1
4 4
1
22
162
i ij i
iji
YYYY

)
14
24
(
2
3)
4
1
(
3
1
3
1
12
1
)(
2
2
4
1
22
4
1
22

i
i
i
i
YY
YYyV
将上述结论加以推广,则可得出一般性的结论,即从总体的 N个单元中不放回抽取 n个单元时的估计量及其方差的构造形式。
二、估计量
1,总体均值和总和的简单估计量在简单随机抽样条件下,总体均值的简单估计量分别为,
n
y
yY
n
i
i?

可以证明,样本均值是总体均值的无偏估计,即
YyE?)(
因此总体总和的简单估计量为

n
i
i
n
i
i
y
n
N
n
yN
yNY
其中 N /n 也称作膨胀因子。
三、估计量的方差在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差 ( 方差或标准差 ) 。但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误 差大小也是不一致的。联合国统计局编的《抽样调查理论基础》一书指出:“从研究大多数国家的抽样实践中,可以看出:虽然计算估计量的标准差,
至少对关键性的几个估计量计算其标准差来说,仅需增加很少的额外开支或负担,但是他们并不意识到确定估计量的标准差的重要意义。这是否因为统计人员无意识地忽视了估计量的不精确性所产生的严峻的现实呢?计算标准差,并且把他们与估计量一起列出来,应该成为实际工作的一个常规。”
总体均值估计量的方差为
21
)( S
n
f
yV
其中,f 为抽样比,1 - f 为有 限总体不重复抽样校正系数,记为 fpc 。
由此进一步可推出
22
2
)()1(
)?( S
n
nNN
S
n
fN
YV
又因为在研究总体成数时
)1(
1
)(
1
1
)(
1
1
)(
1
1
2
22
1
22
PP
N
N
NPNP
N
YNY
N
Yy
N
S
N
i
i
N
i
i

所以可得出总体比例估计量的方差为
)1(1)?( PP
n
fPV
总体中具有某种属性单元总数估计量的方差为
)1(1)?()?( 21 PPN
n
fPNVNV
四、方差估计量可以证明样本方差为总体方差的无偏估计量,即
22 )( SsE?
,所以,当总体方差 2
S
未知时,可用样本方差 2
s
来代替,由此可得出估计量的方差的估计量分别为
21
)(? s
n
f
yV
2
2
)1(
)?(? s
n
fN
YV
而且
)(? yV

)?(? YV
分别是
)( yV

)?( YV
的无偏估计。
)?( PV
的无偏估计量为
)?1(?
1
1
)?(? PP
n
f
PV?
)?( 1NV
的无偏估计量为
)1(
1
)1(
)?(?
2
1 ppn
fN
NV?
第三节 样本容量的确定必要样本容量是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本容量。
一、必要样本容量的确定
(一 )依规定精度来定
1、关于精度的不同提法提法之一:以置信度 1 - α,允许总体参数 θ 的估计量 的最大绝对误差为 Δ,即
1)?(P
提法之二:以置信度 1 - α,允许总体参数 θ 的估计 量 的最大相对误差为 r,即为相对误差)

(.1)
( rrP
提法之三:以置信度 1 - α,允许总体参数 θ 的估计量 的最大方差不超过 V,即
.1))?((VVP
提法之四:以置信度 1 - α,允许总 体参数 θ 的估计量 的最大变异系数不超过 C,即
.1))?(( CCP
2,样本容量 n 的确定当 n 足够大时,可以认为 服从正态分布 N( θ,V( ))( 理由如前述样本统计量的抽样分布 ) 。因此,由上述四种对估计量精确度的不同提法,可以分别得到下列方程式
)?(
2
VZ
)?(
2

VZr?
)?(?VV?
)?()?( VS
C
因为 V( ) 是 n 的函数,求解以上四个方程,即可确定 n 。
( 二 ) 依调查费用来定设 C 表示抽样调查工作的总费用,可大致分为两个构成部分:一部分为固定费用,用
C 0 表示,不管调查单位数的多少,这部分费用都要花费,主要包括组织领导、宣传、设计等费用。一部分为可变费用,用 C 1 表示,它是每调查一个单位平均要花的费用,其费用的大小随调查单元数的多少变动,如调查表的印刷、调 查的差旅费等。这样
C= C 0 + C 1 n
在上述公式中,当某项抽样调查工作所能得到的总费用一定,且 C 0 和 C 1 依其他有关资料也大致可以确定时,就可推算出必要的抽样单元数目
1
0
C
CC
n
( 三 ) 在精度和费用间谋求平衡一般情况下,若依精度要求确定的 n,同依费用限制确定的 n 相比较,若前者小于后者,
则以前者为准,而节省费用。若前者大于后者,则在费用不能再增加,以及精度要求不能再放宽时,只能暂时放弃该调查;在费用不能再增加,而精度要求能做适当让步时,则调整精度要求。
( 四 ) 多指标时 ( 多目标时 ) 样本容量的确定二、总体方差的确定运用精度要求来确定样本容量时,必须事先知道总体的方差。确定总体方差的方法一般有以下几种,
其一,两步抽样法其二,对于一次性的调查,采取在正式调查前进行试点调查,根据试点调查的结果估计 2S 或 P 。。
其三,对于经常性调查项目,可以利用以前调查的结果,也可对以前调查的结果作适当调整。。
其四,根据总体的结构,应用数学方法预测总体方差 2S 或 P 。。
其五,估计比例时,如果能借助某些基本信息或方法,或经验等,估计总体比例大约在 0.3 - 0.7 之间,则也可以直接取成数方差的最大值 0,25 来确定样本量,这通常是一种比较“安全”的选择。