抽样调查理论与方法：10-1～4.PPT

分类：统计格式：ppt 日期：2006年02月08日

第十章系统抽样
所谓系统抽样,就是将总体中 N个单元按照随机方式（
有时也按某种特定的规则）编号为 1,2,…, N，若想抽取
n 个样本，不妨假设 N/n=k为整数，利用计算机可以立即将
这 N个单元排成 n 行 k 列的矩阵，再从 1～ k之间随机地产生
一个随机数 i,则取第 i 列的全体单元作为样本。这种方
法看起来似乎很“机械”，因此有时候也称为,机械抽样”
。然而由于数值,i,是随机产生的，那么所得到的样本具
有一定的随机性。
众所周知，计算机在抽样过程中起着十分重要的作用。
例如，前面提出利用计算机产生随机数，当然我们知道它产
生的是, 伪, 随机数。本章所讨论的系统抽样在抽样过程中
选择使用计算机将是十分方便的。
但在实际中，总体的 N个单元的编号并非完全随机的，
常常带有一定的规律性，例如按照居住地区、工作性质等等
的编号，有时也常常利用一些个体原有的编号 —— 诸如学生
的学号等。此时，系统抽样的随机性就与最有代表性的简单
随机抽样存在一定的差距。
考察 N=nk这种最简单的情形，从总体中实施容量为 n 的
系统抽样相当于从 k 列中随机地任取一列，显然每一列被选中
的概率是一样的，从而总体中每个单元入样的概率均相等，
这是 N=nk时系统抽样的基本习性。
§ 1 系统抽样的若干习性
当时，用上述计算机排列抽样的方法就不能保证
各单元入样的概率相同，因为有些列有 n 个单元，有些列不
足 n 个单元，当列不足 n 时，通常在后再接上,依
原来顺序再排列下去，直到第 n 行填满单元为止，这样任取
的一列恰好保证有 n 个样本。但是，这样产生的后果是增大
了某些单元入样的概率。但当 n 足够大时（例如），
这时不为整数所带来的问题并不大，因此，在以后需
要 n 比较大时，我们总是假设 N 是 n 的整数倍。
N nk?
NY 12,,YY
Nn
50n?
我们注意到一个有趣的事实：当用计算机将 N 个单元排
成 k 列 n 行时，实际上相当于将总体分为 k 层（或群），系
统抽样相当于从 k 个群中随机地抽出一个群进行整群抽样。
这是最简单的整群抽样！因此，在讨论系统抽样的参数估计
时，很多场合将引用整群抽样的一些现成结果。
系统抽样在实际工作中很受调研工作者的欢迎。首先在
于它的实施方便，同时还能保证样本一定程度的代表性。有
时候使用系统抽样不必重新编制抽样框，尤其是在被调查单
元具有自然顺序排列的时侯，例如流水线上生产的产品每隔
k 个抽查一次，只要第一件受检查产品确定以后，余下的抽
查工作将有条不紊地进行。
比如，对上海地区的车辆进行某种特性的抽样检测就可
以对车辆牌照采用系统抽样，譬如车牌号码尾数为 39的车辆
必须到检测所参加测试就是每 100 个单元中抽一个系统抽样
如果总体中单元原来的排列呈现一定的规律性甚至周期
性，依赖于这些排列的系统抽样会产生效果很差的可能。系
统抽样的另一个不足之处在于，在实际中被认为行之有效的
系统抽样一般不是严格的概率抽样，估算估计量的方差有较
大困难。
§ 2 估计量与方差
既然将总体单元排列成的矩阵，因此总体中各单
元的下标也有所改动以便于讨论与表达，见下表：
nk?
12 ikY Y Y Y? ? ? ?
1Y?
2Y?
nY?
12 ik
1 1 1 2 1 1ikY Y Y Y
2 1 2 2 2 2ikY Y Y Y
12n n n i n kY Y Y Y
1
2
n
行平均
列平均
设系统样本为上表中的第 i 列，,i,随机等概率确定的
那么总体平均数就用该列的平均数进行估计：
这是只抽一个群的整群抽样估计，因此是的无偏估计
syy Y
1
1 n
s y i ji
j
y Y Yn?
?
?? ?
(10.1)
其方差为：
22
11
1 1 1( ) ( ) ( )
1
kk
s y i i
ii
kV a r y Y Y Y Y
k k k????
?? ? ? ? ?
? ??(10.2)
利用
2 2 2
1 1 1 1
( 1 ) ( ) ( )
k n k n
j i j i i i
i j i j
N S Y Y Y Y Y Y??
? ? ? ?
? ? ? ? ? ? ?? ? ? ?
22
1 1 1
( ) ( )
k n k
j i i i
i j i
Y Y n Y Y??
? ? ?
? ? ? ?? ? ?
可得
22
11
11( ) ( )kn
s y j i i
ij
NV a r y S Y Y
n k n k ???
?? ? ???
其中表示按列所分的层在
22
11
1 ()
( 1 )
kn
w s y ji i
ij
S Y Ykn ?
??
??? ??
各层内的方差（之和）部分。
与容量为 n 的简单随机抽样的方差比较
2() NnV ar y S
Nn
??
2211
ws y
Nn SS
Nn
???? (10.3)
221( ) ( ) ( )
s y w s y
nV ar y V ar y S S
n
?? ? ?(10.4)
(10.3)式告诉我们，系统内（或层内）方差越大,的方差
就越小；如果划分的层或系统内的差异趋于相当小，
syy
()syVar y
则趋于极大值,倘若各系统内无差异，则的
21N S
N
? syy
误差达到最大且与系统内各单元的个数 n 无关，这一点完全
符合直观。相反地，如果系统内的方差总大于总体的方差，
说明我们的系统抽样样本比简单随机样本更具有代表性（在
相同容量下），此时系统抽样的精度优于简单随机抽样的精
度。
在时，我们已经指出系统抽样实际上是在群的大
小相等情形下的只抽一个群的整群抽样，因此完全可以利用
整群抽样估计量的方差表示式，而在那里我们用到了群内（
或层内、系统内）的相关系数,所以可以用相关系数
来表示。
N nk?
? ?
()syVar y
例 10— 1,构造一个虚拟总体 (N＝ 25)，数据如下表，利用系
统抽样抽取 n＝ 5 的样本估计总体平均数，现考虑按行以及
按列进行的系统抽样，比较其样本平均数与方差有何不同。
行
列 1 2 3 4 5
1
2
3
4
5
10 18 16 30 21
23 17 22 11 31
25 15 13 40 32
30 23 16 14 28
17 26 33 19 29
21 19.8 20 22.8 28.2
59.5 20.7 63.5 144.7 18.7
19
20.8
25
22.2
24.8
54
55.2
129.5
50.2
45.2
行平均数
列平均数
行方差
列方差
行内平均
方差 66.82
列内平均
方差 61.42
2 2,3 6Y ?
2 61.24S ?
比较几种不同抽样的效果，均取 n=5
（ 1）简单随机抽样
21( ) 9.79 84fV ar y S
n
???
（ 2）以行为群的系统抽样
1
211( ) ( )
5, 3 3 4 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
行内平均方差
（ 3）以列为群的系统抽样
2
211( ) ( )
9, 6 5 4 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
列内平均方差
以上数据分析说明了几个事实：
（ 1）正如我们在讨论的方差时所指出的那样，不管是按
行还是按列进行系统抽样，由于群（系统）内的方差大于总
体方差，因此，以行或以列为系统的抽样效果均优于简单随
机抽样。
syy
（ 2）由于按列为群的系统抽样中系统内的方差几乎等于总体
方差，因而它与简单随机抽样几乎具有相同的效果。事实上
以行为系统的 5 个行平均数比起以列为系统的 5 个列平均数
离总体平均数的距离的范围要小一些，因而它的精度自然比
较高。这就告诉我们，因总体单元的排列不同，从而构成的
系统不同，那么产生的抽样效果当然也不同。
现在尝试一下将总体单元按大小顺序从左到右每行 5 个
地排成 5 列，然后以列为群作系统抽样。直觉告诉我们，这
种排列法使每列都具有较小的单元，也都具有较大的单元，
列内单元间差异增大，而各列之间的相似程度增加，这样，
以列为系统的抽样样本更接近于总体，可以设想此时的系统
抽样将大大地提高精度。
例 10— 2,将例 10— 1的总体单元按大小顺序从左到右排成
的阵列，其数据及列平均方差如下表：55?
20 21 22.4 23.2 25.2
60.5 62.5 60.3 63.2 100.7
列平均数
列方差列内平均方差 69.44
2 2,3 6Y ?
2 61.24S ?
行
列 1 2 3 4 5
1
2
3
4
5
10 11 13 14 15
16 16 17 17 18
25 26 28 29 30
30 31 32 33 40
19 21 22 23 23
以列为群的系统抽样平均数的方差为
2
211( ) ( )
3, 2 3 8 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
列内平均方差
这个结果比起例 10— 1中以行为群的系统抽样的效果还要好
在此，我们不再计算行平均数与行方差，从每行的单元看，
显然以行为群作系统抽样其效果很差。
§ 3 方差与总体单元排列顺序的关系
从上一节讨论可知，系统抽样的精度不仅与总体方差有
关，而且与为了构成群而进行的单元排列顺序有关。但是，
令人满意的按照单元大小顺序排列是不切实际的，我们不可
能知道总体单元的指标大小，否则，就不必进行抽样调查了
有时我们能“毛估估”到单元的大小趋势，那么在实际中
按照这种大约的趋势进行排列，以便系统抽样所得到的样本
包含大大小小、各种各样的代表，这种做法其实与分层抽样
几乎出于同一思想。
如果我们对总体单元的指标大小根本是一无所知，那么
怎样去进行单元排列呢？其做法不外乎按照单元自然的顺序
进行排列，该自然顺序一般应当与我们关心的指标值没有相
关关系。例如，我们调查个人年收入，对于总体中的人员可
以按照姓氏笔划进行排列（同姓的几个人可以采取随机的方
法确定他们的顺序），显然，姓氏笔划一般与这个人的收入
没有任何关系。这样的排列方式完全相当于将单元作随机排
列。前面的例子已经指出，当单元排列为随机时，系统抽样
与简单随机抽样有着几乎相同的效果。
当然，简单随机抽样的方差不会因为单元的排列顺序不
同而变化，对于总体来说是个常数。但是，系统抽样的方差
随着随机排列的不同形式而改变。这里所说的效果相同，是
从平均意义上来讲的。作多次的随机排列，这些排列所得方
差的平均值随着排列次数的增加而接近简单随机抽样的方差
需要注意的一点是，有时我们虽然不知道总体单元的指
标大小，但是根据某些与指标值有密切关系的辅助变量依然
可以进行令人满意的排列以提高系统抽样的精度。一旦从这
些辅助变量发现总体大小上周期性的变化，那么抽样的间隔
k 必须与该周期错开，否则系统抽样的质量将无法保证。
例如，我们调查某航空公司每月班机旅客人数，在旅游
旺季的月份旅客增多，而在淡季的月份则相反，年年如此。
如果我们对近几年该公司每月记录作系统抽样，若取 k＝ 12
那么取得的一系列数据要么都是旺季的最高额，要么是淡季
的低客流量，不能很好地反映总的情况。
§ 4 具有线性趋势的总体的抽样方法改进
如果总体的单元按照某个辅助变量的大小顺序排列，而
该辅助变量与我们关心的指标值线性相关，称为线性趋势排
列。由于这在一定程度上相当于按单元大小排列，我们所讨
论的等距（ k 为常数）系统抽样有着较高的精度。这种排列
使得系统内样本方差增大，因此系统抽样的方差小于简单随
机抽样方差。
如果按大小分成几个层，在各层中随机取一个单元，如
此分层抽样产生的方差应当比系统抽样方差小。理由很简单
系统抽样中一旦按大小或线性趋势排列，那么各系统完全被
确定，抽样的随机性只是体现在抽哪一个系统。如果抽到的
排列阵靠左的那个系统，那么该系统的各个数值在各个系统
比较之中属于较小；反之，如果抽到排列阵靠右的列，相对
地数值就较大，由此得到的估计量也就偏小或偏大，从而增
大了估计量的方差。而我们所说的分层抽样则不一样，在我
们的排列阵中的每一行随机抽取的一个可以在该行中偏小或
者偏大或者居中，很清楚，由此得到的样本既考虑到按大小
的分层，又比系统抽样的样本更具代表性，一般它的方差要
比较小一些。
这个事实启迪了我们，能否针对系统抽样的缺陷对抽样
方法或估计方法作适当的改进以提高估计的精度呢？以下介
绍的若干方法对于总体单元呈线性趋势的情况是行之有效的
1、首尾校正法
仍考虑,倘若我们随机抽到 i,那么对第 i 个系
统内 n 个样本构成的平均数,Yates(1948)建议不用等权平均
而用加权平均，他所改变的权实际上只针对系统内最小与最
N nk?
大的两个样本，其余的样本仍赋予权 1/n,因此称为首尾校
正法。具体来讲，对首尾两个样本各赋予如下权：
1
1 2 1
2 ( 1 )
ikW
n n k
????
?
1 2 1
2 ( 1 )n
ikW
n n k
????
?
?
?
?
?
?
(10.5)
如果总体单元具有严格的线性趋势时，无论取
哪一个 i,均有第 i 系统的加权平均数等于总体平均数。
uYu????
如果,按照第一节所叙述的方法，我们知道，选
择的第 i 个系统，有可能第 n 个样本比前 (n－ 1)个样本大，
即相当于时的正常情况，也有可能第 n 个样本越过
而取在等总体开头的几个单元中（显然其在
总体中的大小位置不会达到或越过第 i 系统的第一个样本）
N nk?
N nk?
NY 12,,YY
此时的加权不能再用 Yates的方法，因此，在的情况
下，常根据两种情况进行加权：
N nk?
（ 1）若,其实这是所谓的“正常”情况，
此时首、尾两个样本单元的权分别为：
( 1 )i n k N? ? ?
1
1 2 ( 1 ) ( 1 )
2 ( 1 )
i n k NW
n n k
? ? ? ???
??
?
?
?
?
(10.6)
1 2 ( 1 ) ( 1 )
2 ( 1 )n
i n k NW
n n k
? ? ? ???
?
（ 2）若,此时第 n 个样本（尾样本）出
现在与我们选取的样本单元之间（它可能等于但不
可能取到），不妨设该样本为
此时，首尾单元应赋予的权分别为：
( 1 )i n k N? ? ?
1Y iY 1Y
iY ( ( 1 ) )mY m i n k N? ? ? ?
1
1 2 ( 1 ) ( 1 ) 2
2 ( 1 )
i n k N m N nW
n n k
? ? ? ? ???
??
?
?
?
?
(10.7)
1 2 ( 1 ) ( 1 ) 2
2 ( 1 )n
i n k N m N nW
n n k
? ? ? ? ???
?
当然在情况（ 1）与（ 2）中，其它的样本均赋予权 1/n,
这里应当指出的是，情况（ 1）虽属“正常”情况，但它所赋予
的首尾权绝对不等同于时的（ 10.5）式，因为 i 是随
机选取的，因此在时，（ 1）与（ 2）必须综合在一
起考虑赋权才能取得较好的效果。
N nk?
N nk?
2、中位样本方法
按单元大小顺序排列，或者与指标值正线性相关的辅助
变量大小顺序排列，都会出现所排阵列中左边系统样本值偏
小、右边系统样本值偏大的现象。一个极好的想法油然而生
我们可以取 1～ k中最中间的那个数作为 i,具体一些：
1
2
1
22
k
i
kk
??
??
? ?
? ?
??
或
k
k
为奇数时
为偶数时
（ 10.8）
如果只进行一次调查，这的确是个效果不错的方法，因
为它避免了估计量偏小或偏大的可能。但是，由于我们的排
列方法是按单元大小或按线性趋势进行的，因此总体的确定
就决定了排列的方法，这就决定了样本单元，谈不上随机抽
样这个题目。
3、对称平衡系统抽样法
既希望克服中位数方法的缺乏随机性，又希望避免有些
系统样本估计量过大的偏倚，并希望保留系统抽样的特点，
这三种要求很容易启发我们采用一种,对称系统抽样法,。
仍以为例，假定 n 为偶数，按单元大小顺序或
按线性趋势将 N 个总体单元从左到右、由上往下排成 2k 列
行的阵列。从 1～ 2k中随机地选取整数 i,对称地再取
(2k－ i＋ 1)，对于新阵列中第 i 个系统与第 (2k－ i＋ 1)个系统
进行整群抽样，样本容量恰好为 n,不难想象这组样本既具
有随机性又包含了较小和较大两部分的数据，因此它们的平
均数不至于发生很大偏差。
N nk?
2n

课件简介

课件名称：	抽样调查理论与方法
课件分类：	统计
课件类型：	电子教案
文件大小：	4.45MB
下载次数：	4
评论次数：	3
用户评分：	8

用户列表