第十章 系统抽样
所谓 系统抽样,就是将总体中 N个单元按照随机方式(
有时也按某种特定的规则)编号为 1,2,…, N,若想抽取
n 个样本,不妨假设 N/n=k为整数,利用计算机可以立即将
这 N个单元排成 n 行 k 列的矩阵,再从 1~ k之间随机地产生
一个随机数 i,则取第 i 列的全体单元作为样本。这种方
法看起来似乎很“机械”,因此有时候也称为,机械抽样”
。然而由于数值,i,是随机产生的,那么所得到的样本具
有一定的随机性。
众所周知,计算机在抽样过程中起着十分重要的作用。
例如,前面提出利用计算机产生随机数,当然我们知道它产
生的是, 伪, 随机数。本章所讨论的系统抽样在抽样过程中
选择使用计算机将是十分方便的。
但在实际中,总体的 N个单元的编号并非完全随机的,
常常带有一定的规律性,例如按照居住地区、工作性质等等
的编号,有时也常常利用一些个体原有的编号 —— 诸如学生
的学号等。此时,系统抽样的随机性就与最有代表性的简单
随机抽样存在一定的差距。
考察 N=nk这种最简单的情形,从总体中实施容量为 n 的
系统抽样相当于从 k 列中随机地任取一列,显然每一列被选中
的概率是一样的,从而总体中每个单元入样的概率均相等,
这是 N=nk时系统抽样的基本习性。
§ 1 系统抽样的若干习性
当 时,用上述计算机排列抽样的方法就不能保证
各单元入样的概率相同,因为有些列有 n 个单元,有些列不
足 n 个单元,当列不足 n 时,通常在 后再接上,依
原来顺序再排列下去,直到第 n 行填满单元为止,这样任取
的一列恰好保证有 n 个样本。但是,这样产生的后果是增大
了某些单元入样的概率。但当 n 足够大时(例如 ),
这时 不为整数所带来的问题并不大,因此,在以后需
要 n 比较大时,我们总是假设 N 是 n 的整数倍。
N nk?
NY 12,,YY
Nn
50n?
我们注意到一个有趣的事实:当用计算机将 N 个单元排
成 k 列 n 行时,实际上相当于将总体分为 k 层(或群),系
统抽样相当于从 k 个群中随机地抽出一个群进行整群抽样。
这是最简单的整群抽样!因此,在讨论系统抽样的参数估计
时,很多场合将引用整群抽样的一些现成结果。
系统抽样在实际工作中很受调研工作者的欢迎。首先在
于它的实施方便,同时还能保证样本一定程度的代表性。有
时候使用系统抽样不必重新编制抽样框,尤其是在被调查单
元具有自然顺序排列的时侯,例如流水线上生产的产品每隔
k 个抽查一次,只要第一件受检查产品确定以后,余下的抽
查工作将有条不紊地进行。
比如,对上海地区的车辆进行某种特性的抽样检测就可
以对车辆牌照采用系统抽样,譬如车牌号码尾数为 39的车辆
必须到检测所参加测试就是每 100 个单元中抽一个系统抽样
如果总体中单元原来的排列呈现一定的规律性甚至周期
性,依赖于这些排列的系统抽样会产生效果很差的可能。系
统抽样的另一个不足之处在于,在实际中被认为行之有效的
系统抽样一般不是严格的概率抽样,估算估计量的方差有较
大困难。
§ 2 估计量与方差
既然将总体单元排列成 的矩阵,因此总体中各单
元的下标也有所改动以便于讨论与表达,见下表:
nk?
12 ikY Y Y Y? ? ? ?
1Y?
2Y?
nY?
12 ik
1 1 1 2 1 1ikY Y Y Y
2 1 2 2 2 2ikY Y Y Y
12n n n i n kY Y Y Y
1
2
n
行平均
列平均
设系统样本为上表中的第 i 列,,i,随机等概率确定的
那么总体平均数就用该列的平均数进行估计:
这是只抽一个群的整群抽样估计,因此 是 的无偏估计
syy Y
1
1 n
s y i ji
j
y Y Yn?
?
?? ?
(10.1)
其方差为:
22
11
1 1 1( ) ( ) ( )
1
kk
s y i i
ii
kV a r y Y Y Y Y
k k k????
?? ? ? ? ?
? ??(10.2)
利用
2 2 2
1 1 1 1
( 1 ) ( ) ( )
k n k n
j i j i i i
i j i j
N S Y Y Y Y Y Y??
? ? ? ?
? ? ? ? ? ? ?? ? ? ?
22
1 1 1
( ) ( )
k n k
j i i i
i j i
Y Y n Y Y??
? ? ?
? ? ? ?? ? ?
可得
22
11
11( ) ( )kn
s y j i i
ij
NV a r y S Y Y
n k n k ???
?? ? ???
其中 表示按列所分的层在
22
11
1 ()
( 1 )
kn
w s y ji i
ij
S Y Ykn ?
??
??? ??
各层内的方差(之和)部分。
与容量为 n 的简单随机抽样的方差 比较
2() NnV ar y S
Nn
??
2211
ws y
Nn SS
Nn
???? (10.3)
221( ) ( ) ( )
s y w s y
nV ar y V ar y S S
n
?? ? ?(10.4)
(10.3)式告诉我们,系统内(或层内)方差越大,的方差
就越小;如果划分的层或系统内的差异趋于相当小,
syy
()syVar y
则趋于极大值,倘若各系统内无差异,则 的
21N S
N
? syy
误差达到最大且与系统内各单元的个数 n 无关,这一点完全
符合直观。相反地,如果系统内的方差总大于总体的方差,
说明我们的系统抽样样本比简单随机样本更具有代表性(在
相同容量下),此时系统抽样的精度优于简单随机抽样的精
度。
在 时,我们已经指出系统抽样实际上是在群的大
小相等情形下的只抽一个群的整群抽样,因此完全可以利用
整群抽样估计量的方差表示式,而在那里我们用到了群内(
或层内、系统内)的相关系数,所以可以用相关系数
来表示 。
N nk?
? ?
()syVar y
例 10— 1,构造一个虚拟总体 (N= 25),数据如下表,利用系
统抽样抽取 n= 5 的样本估计总体平均数,现考虑按行以及
按列进行的系统抽样,比较其样本平均数与方差有何不同。
行
列 1 2 3 4 5
1
2
3
4
5
10 18 16 30 21
23 17 22 11 31
25 15 13 40 32
30 23 16 14 28
17 26 33 19 29
21 19.8 20 22.8 28.2
59.5 20.7 63.5 144.7 18.7
19
20.8
25
22.2
24.8
54
55.2
129.5
50.2
45.2
行平均数
列平均数
行方差
列方差
行内平均
方差 66.82
列内平均
方差 61.42
2 2,3 6Y ?
2 61.24S ?
比较几种不同抽样的效果,均取 n=5
( 1)简单随机抽样
21( ) 9.79 84fV ar y S
n
???
( 2)以行为群的系统抽样
1
211( ) ( )
5, 3 3 4 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
行 内 平 均 方 差
( 3)以列为群的系统抽样
2
211( ) ( )
9, 6 5 4 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
列 内 平 均 方 差
以上数据分析说明了几个事实:
( 1)正如我们在讨论 的方差时所指出的那样,不管是按
行还是按列进行系统抽样,由于群(系统)内的方差大于总
体方差,因此,以行或以列为系统的抽样效果均优于简单随
机抽样。
syy
( 2)由于按列为群的系统抽样中系统内的方差几乎等于总体
方差,因而它与简单随机抽样几乎具有相同的效果。事实上
以行为系统的 5 个行平均数比起以列为系统的 5 个列平均数
离总体平均数的距离的范围要小一些,因而它的精度自然比
较高。这就告诉我们,因总体单元的排列不同,从而构成的
系统不同,那么产生的抽样效果当然也不同。
现在尝试一下将总体单元按大小顺序从左到右每行 5 个
地排成 5 列,然后以列为群作系统抽样。直觉告诉我们,这
种排列法使每列都具有较小的单元,也都具有较大的单元,
列内单元间差异增大,而各列之间的相似程度增加,这样,
以列为系统的抽样样本更接近于总体,可以设想此时的系统
抽样将大大地提高精度。
例 10— 2,将例 10— 1的总体单元按大小顺序从左到右排成
的阵列,其数据及列平均方差如下表:55?
20 21 22.4 23.2 25.2
60.5 62.5 60.3 63.2 100.7
列平均数
列方差 列内平均方差 69.44
2 2,3 6Y ?
2 61.24S ?
行
列 1 2 3 4 5
1
2
3
4
5
10 11 13 14 15
16 16 17 17 18
25 26 28 29 30
30 31 32 33 40
19 21 22 23 23
以列为群的系统抽样平均数的方差为
2
211( ) ( )
3, 2 3 8 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
列 内 平 均 方 差
这个结果比起例 10— 1中以行为群的系统抽样的效果还要好
在此,我们不再计算行平均数与行方差,从每行的单元看,
显然以行为群作系统抽样其效果很差。
§ 3 方差与总体单元排列顺序的关系
从上一节讨论可知,系统抽样的精度不仅与总体方差有
关,而且与为了构成群而进行的单元排列顺序有关。但是,
令人满意的按照单元大小顺序排列是不切实际的,我们不可
能知道总体单元的指标大小,否则,就不必进行抽样调查了
有时我们能“毛估估”到单元的大小趋势,那么在实际中
按照这种大约的趋势进行排列,以便系统抽样所得到的样本
包含大大小小、各种各样的代表,这种做法其实与分层抽样
几乎出于同一思想。
如果我们对总体单元的指标大小根本是一无所知,那么
怎样去进行单元排列呢?其做法不外乎按照单元自然的顺序
进行排列,该自然顺序一般应当与我们关心的指标值没有相
关关系。例如,我们调查个人年收入,对于总体中的人员可
以按照姓氏笔划进行排列(同姓的几个人可以采取随机的方
法确定他们的顺序),显然,姓氏笔划一般与这个人的收入
没有任何关系。这样的排列方式完全相当于将单元作随机排
列。前面的例子已经指出,当单元排列为随机时,系统抽样
与简单随机抽样有着几乎相同的效果。
当然,简单随机抽样的方差不会因为单元的排列顺序不
同而变化,对于总体来说是个常数。但是,系统抽样的方差
随着随机排列的不同形式而改变。这里所说的效果相同,是
从平均意义上来讲的。作多次的随机排列,这些排列所得方
差的平均值随着排列次数的增加而接近简单随机抽样的方差
需要注意的一点是,有时我们虽然不知道总体单元的指
标大小,但是根据某些与指标值有密切关系的辅助变量依然
可以进行令人满意的排列以提高系统抽样的精度。一旦从这
些辅助变量发现总体大小上周期性的变化,那么抽样的间隔
k 必须与该周期错开,否则系统抽样的质量将无法保证。
例如,我们调查某航空公司每月班机旅客人数,在旅游
旺季的月份旅客增多,而在淡季的月份则相反,年年如此。
如果我们对近几年该公司每月记录作系统抽样,若取 k= 12
那么取得的一系列数据要么都是旺季的最高额,要么是淡季
的低客流量,不能很好地反映总的情况。
§ 4 具有线性趋势的总体的抽样方法改进
如果总体的单元按照某个辅助变量的大小顺序排列,而
该辅助变量与我们关心的指标值线性相关,称为线性趋势排
列。由于这在一定程度上相当于按单元大小排列,我们所讨
论的等距( k 为常数)系统抽样有着较高的精度。这种排列
使得系统内样本方差增大,因此系统抽样的方差小于简单随
机抽样方差。
如果按大小分成几个层,在各层中随机取一个单元,如
此分层抽样产生的方差应当比系统抽样方差小。理由很简单
系统抽样中一旦按大小或线性趋势排列,那么各系统完全被
确定,抽样的随机性只是体现在抽哪一个系统。如果抽到的
排列阵靠左的那个系统,那么该系统的各个数值在各个系统
比较之中属于较小;反之,如果抽到排列阵靠右的列,相对
地数值就较大,由此得到的估计量也就偏小或偏大,从而增
大了估计量的方差。而我们所说的分层抽样则不一样,在我
们的排列阵中的每一行随机抽取的一个可以在该行中偏小或
者偏大或者居中,很清楚,由此得到的样本既考虑到按大小
的分层,又比系统抽样的样本更具代表性,一般它的方差要
比较小一些。
这个事实启迪了我们,能否针对系统抽样的缺陷对抽样
方法或估计方法作适当的改进以提高估计的精度呢?以下介
绍的若干方法对于总体单元呈线性趋势的情况是行之有效的
1、首尾校正法
仍考虑,倘若我们随机抽到 i,那么对第 i 个系
统内 n 个样本构成的平均数,Yates(1948)建议不用等权平均
而用加权平均,他所改变的权实际上只针对系统内最小与最
N nk?
大的两个样本,其余的样本仍赋予权 1/n,因此称为首尾校
正法。具体来讲,对首尾两个样本各赋予如下权:
1
1 2 1
2 ( 1 )
ikW
n n k
????
?
1 2 1
2 ( 1 )n
ikW
n n k
????
?
?
?
?
?
?
(10.5)
如果总体单元具有严格的线性趋势 时,无论取
哪一个 i,均有第 i 系统的加权平均数等于总体平均数。
uYu????
如果,按照第一节所叙述的方法,我们知道,选
择的第 i 个系统,有可能第 n 个样本比前 (n- 1)个样本大,
即相当于 时的正常情况,也有可能第 n 个样本越过
而取在 等总体开头的几个单元中(显然其在
总体中的大小位置不会达到或越过第 i 系统的第一个样本)
N nk?
N nk?
NY 12,,YY
此时的加权不能再用 Yates的方法,因此,在 的情况
下,常根据两种情况进行加权:
N nk?
( 1)若,其实这是所谓的“正常”情况,
此时首、尾两个样本单元的权分别为:
( 1 )i n k N? ? ?
1
1 2 ( 1 ) ( 1 )
2 ( 1 )
i n k NW
n n k
? ? ? ???
??
?
?
?
?
(10.6)
1 2 ( 1 ) ( 1 )
2 ( 1 )n
i n k NW
n n k
? ? ? ???
?
( 2)若,此时第 n 个样本(尾样本)出
现在 与我们选取的样本单元 之间(它可能等于 但不
可能取到 ),不妨设该样本为
此时,首尾单元应赋予的权分别为:
( 1 )i n k N? ? ?
1Y iY 1Y
iY ( ( 1 ) )mY m i n k N? ? ? ?
1
1 2 ( 1 ) ( 1 ) 2
2 ( 1 )
i n k N m N nW
n n k
? ? ? ? ???
??
?
?
?
?
(10.7)
1 2 ( 1 ) ( 1 ) 2
2 ( 1 )n
i n k N m N nW
n n k
? ? ? ? ???
?
当然在情况( 1)与( 2)中,其它的样本均赋予权 1/n,
这里应当指出的是,情况( 1)虽属“正常”情况,但它所赋予
的首尾权绝对不等同于 时的( 10.5)式,因为 i 是随
机选取的,因此在 时,( 1)与( 2)必须综合在一
起考虑赋权才能取得较好的效果。
N nk?
N nk?
2、中位样本方法
按单元大小顺序排列,或者与指标值正线性相关的辅助
变量大小顺序排列,都会出现所排阵列中左边系统样本值偏
小、右边系统样本值偏大的现象。一个极好的想法油然而生
我们可以取 1~ k中最中间的那个数作为 i,具体一些:
1
2
1
22
k
i
kk
??
??
? ?
? ?
??
或
k
k
为奇数时
为偶数时
( 10.8)
如果只进行一次调查,这的确是个效果不错的方法,因
为它避免了估计量偏小或偏大的可能。但是,由于我们的排
列方法是按单元大小或按线性趋势进行的,因此总体的确定
就决定了排列的方法,这就决定了样本单元,谈不上随机抽
样这个题目。
3、对称平衡系统抽样法
既希望克服中位数方法的缺乏随机性,又希望避免有些
系统样本估计量过大的偏倚,并希望保留系统抽样的特点,
这三种要求很容易启发我们采用一种,对称系统抽样法,。
仍以 为例,假定 n 为偶数,按单元大小顺序或
按线性趋势将 N 个总体单元从左到右、由上往下排成 2k 列
行的阵列。从 1~ 2k中随机地选取整数 i,对称地再取
(2k- i+ 1),对于新阵列中第 i 个系统与第 (2k- i+ 1)个系统
进行整群抽样,样本容量恰好为 n,不难想象这组样本既具
有随机性又包含了较小和较大两部分的数据,因此它们的平
均数不至于发生很大偏差。
N nk?
2n
所谓 系统抽样,就是将总体中 N个单元按照随机方式(
有时也按某种特定的规则)编号为 1,2,…, N,若想抽取
n 个样本,不妨假设 N/n=k为整数,利用计算机可以立即将
这 N个单元排成 n 行 k 列的矩阵,再从 1~ k之间随机地产生
一个随机数 i,则取第 i 列的全体单元作为样本。这种方
法看起来似乎很“机械”,因此有时候也称为,机械抽样”
。然而由于数值,i,是随机产生的,那么所得到的样本具
有一定的随机性。
众所周知,计算机在抽样过程中起着十分重要的作用。
例如,前面提出利用计算机产生随机数,当然我们知道它产
生的是, 伪, 随机数。本章所讨论的系统抽样在抽样过程中
选择使用计算机将是十分方便的。
但在实际中,总体的 N个单元的编号并非完全随机的,
常常带有一定的规律性,例如按照居住地区、工作性质等等
的编号,有时也常常利用一些个体原有的编号 —— 诸如学生
的学号等。此时,系统抽样的随机性就与最有代表性的简单
随机抽样存在一定的差距。
考察 N=nk这种最简单的情形,从总体中实施容量为 n 的
系统抽样相当于从 k 列中随机地任取一列,显然每一列被选中
的概率是一样的,从而总体中每个单元入样的概率均相等,
这是 N=nk时系统抽样的基本习性。
§ 1 系统抽样的若干习性
当 时,用上述计算机排列抽样的方法就不能保证
各单元入样的概率相同,因为有些列有 n 个单元,有些列不
足 n 个单元,当列不足 n 时,通常在 后再接上,依
原来顺序再排列下去,直到第 n 行填满单元为止,这样任取
的一列恰好保证有 n 个样本。但是,这样产生的后果是增大
了某些单元入样的概率。但当 n 足够大时(例如 ),
这时 不为整数所带来的问题并不大,因此,在以后需
要 n 比较大时,我们总是假设 N 是 n 的整数倍。
N nk?
NY 12,,YY
Nn
50n?
我们注意到一个有趣的事实:当用计算机将 N 个单元排
成 k 列 n 行时,实际上相当于将总体分为 k 层(或群),系
统抽样相当于从 k 个群中随机地抽出一个群进行整群抽样。
这是最简单的整群抽样!因此,在讨论系统抽样的参数估计
时,很多场合将引用整群抽样的一些现成结果。
系统抽样在实际工作中很受调研工作者的欢迎。首先在
于它的实施方便,同时还能保证样本一定程度的代表性。有
时候使用系统抽样不必重新编制抽样框,尤其是在被调查单
元具有自然顺序排列的时侯,例如流水线上生产的产品每隔
k 个抽查一次,只要第一件受检查产品确定以后,余下的抽
查工作将有条不紊地进行。
比如,对上海地区的车辆进行某种特性的抽样检测就可
以对车辆牌照采用系统抽样,譬如车牌号码尾数为 39的车辆
必须到检测所参加测试就是每 100 个单元中抽一个系统抽样
如果总体中单元原来的排列呈现一定的规律性甚至周期
性,依赖于这些排列的系统抽样会产生效果很差的可能。系
统抽样的另一个不足之处在于,在实际中被认为行之有效的
系统抽样一般不是严格的概率抽样,估算估计量的方差有较
大困难。
§ 2 估计量与方差
既然将总体单元排列成 的矩阵,因此总体中各单
元的下标也有所改动以便于讨论与表达,见下表:
nk?
12 ikY Y Y Y? ? ? ?
1Y?
2Y?
nY?
12 ik
1 1 1 2 1 1ikY Y Y Y
2 1 2 2 2 2ikY Y Y Y
12n n n i n kY Y Y Y
1
2
n
行平均
列平均
设系统样本为上表中的第 i 列,,i,随机等概率确定的
那么总体平均数就用该列的平均数进行估计:
这是只抽一个群的整群抽样估计,因此 是 的无偏估计
syy Y
1
1 n
s y i ji
j
y Y Yn?
?
?? ?
(10.1)
其方差为:
22
11
1 1 1( ) ( ) ( )
1
kk
s y i i
ii
kV a r y Y Y Y Y
k k k????
?? ? ? ? ?
? ??(10.2)
利用
2 2 2
1 1 1 1
( 1 ) ( ) ( )
k n k n
j i j i i i
i j i j
N S Y Y Y Y Y Y??
? ? ? ?
? ? ? ? ? ? ?? ? ? ?
22
1 1 1
( ) ( )
k n k
j i i i
i j i
Y Y n Y Y??
? ? ?
? ? ? ?? ? ?
可得
22
11
11( ) ( )kn
s y j i i
ij
NV a r y S Y Y
n k n k ???
?? ? ???
其中 表示按列所分的层在
22
11
1 ()
( 1 )
kn
w s y ji i
ij
S Y Ykn ?
??
??? ??
各层内的方差(之和)部分。
与容量为 n 的简单随机抽样的方差 比较
2() NnV ar y S
Nn
??
2211
ws y
Nn SS
Nn
???? (10.3)
221( ) ( ) ( )
s y w s y
nV ar y V ar y S S
n
?? ? ?(10.4)
(10.3)式告诉我们,系统内(或层内)方差越大,的方差
就越小;如果划分的层或系统内的差异趋于相当小,
syy
()syVar y
则趋于极大值,倘若各系统内无差异,则 的
21N S
N
? syy
误差达到最大且与系统内各单元的个数 n 无关,这一点完全
符合直观。相反地,如果系统内的方差总大于总体的方差,
说明我们的系统抽样样本比简单随机样本更具有代表性(在
相同容量下),此时系统抽样的精度优于简单随机抽样的精
度。
在 时,我们已经指出系统抽样实际上是在群的大
小相等情形下的只抽一个群的整群抽样,因此完全可以利用
整群抽样估计量的方差表示式,而在那里我们用到了群内(
或层内、系统内)的相关系数,所以可以用相关系数
来表示 。
N nk?
? ?
()syVar y
例 10— 1,构造一个虚拟总体 (N= 25),数据如下表,利用系
统抽样抽取 n= 5 的样本估计总体平均数,现考虑按行以及
按列进行的系统抽样,比较其样本平均数与方差有何不同。
行
列 1 2 3 4 5
1
2
3
4
5
10 18 16 30 21
23 17 22 11 31
25 15 13 40 32
30 23 16 14 28
17 26 33 19 29
21 19.8 20 22.8 28.2
59.5 20.7 63.5 144.7 18.7
19
20.8
25
22.2
24.8
54
55.2
129.5
50.2
45.2
行平均数
列平均数
行方差
列方差
行内平均
方差 66.82
列内平均
方差 61.42
2 2,3 6Y ?
2 61.24S ?
比较几种不同抽样的效果,均取 n=5
( 1)简单随机抽样
21( ) 9.79 84fV ar y S
n
???
( 2)以行为群的系统抽样
1
211( ) ( )
5, 3 3 4 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
行 内 平 均 方 差
( 3)以列为群的系统抽样
2
211( ) ( )
9, 6 5 4 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
列 内 平 均 方 差
以上数据分析说明了几个事实:
( 1)正如我们在讨论 的方差时所指出的那样,不管是按
行还是按列进行系统抽样,由于群(系统)内的方差大于总
体方差,因此,以行或以列为系统的抽样效果均优于简单随
机抽样。
syy
( 2)由于按列为群的系统抽样中系统内的方差几乎等于总体
方差,因而它与简单随机抽样几乎具有相同的效果。事实上
以行为系统的 5 个行平均数比起以列为系统的 5 个列平均数
离总体平均数的距离的范围要小一些,因而它的精度自然比
较高。这就告诉我们,因总体单元的排列不同,从而构成的
系统不同,那么产生的抽样效果当然也不同。
现在尝试一下将总体单元按大小顺序从左到右每行 5 个
地排成 5 列,然后以列为群作系统抽样。直觉告诉我们,这
种排列法使每列都具有较小的单元,也都具有较大的单元,
列内单元间差异增大,而各列之间的相似程度增加,这样,
以列为系统的抽样样本更接近于总体,可以设想此时的系统
抽样将大大地提高精度。
例 10— 2,将例 10— 1的总体单元按大小顺序从左到右排成
的阵列,其数据及列平均方差如下表:55?
20 21 22.4 23.2 25.2
60.5 62.5 60.3 63.2 100.7
列平均数
列方差 列内平均方差 69.44
2 2,3 6Y ?
2 61.24S ?
行
列 1 2 3 4 5
1
2
3
4
5
10 11 13 14 15
16 16 17 17 18
25 26 28 29 30
30 31 32 33 40
19 21 22 23 23
以列为群的系统抽样平均数的方差为
2
211( ) ( )
3, 2 3 8 4
sy
Nn
V a r y S
Nn
??
? ? ?
?
列 内 平 均 方 差
这个结果比起例 10— 1中以行为群的系统抽样的效果还要好
在此,我们不再计算行平均数与行方差,从每行的单元看,
显然以行为群作系统抽样其效果很差。
§ 3 方差与总体单元排列顺序的关系
从上一节讨论可知,系统抽样的精度不仅与总体方差有
关,而且与为了构成群而进行的单元排列顺序有关。但是,
令人满意的按照单元大小顺序排列是不切实际的,我们不可
能知道总体单元的指标大小,否则,就不必进行抽样调查了
有时我们能“毛估估”到单元的大小趋势,那么在实际中
按照这种大约的趋势进行排列,以便系统抽样所得到的样本
包含大大小小、各种各样的代表,这种做法其实与分层抽样
几乎出于同一思想。
如果我们对总体单元的指标大小根本是一无所知,那么
怎样去进行单元排列呢?其做法不外乎按照单元自然的顺序
进行排列,该自然顺序一般应当与我们关心的指标值没有相
关关系。例如,我们调查个人年收入,对于总体中的人员可
以按照姓氏笔划进行排列(同姓的几个人可以采取随机的方
法确定他们的顺序),显然,姓氏笔划一般与这个人的收入
没有任何关系。这样的排列方式完全相当于将单元作随机排
列。前面的例子已经指出,当单元排列为随机时,系统抽样
与简单随机抽样有着几乎相同的效果。
当然,简单随机抽样的方差不会因为单元的排列顺序不
同而变化,对于总体来说是个常数。但是,系统抽样的方差
随着随机排列的不同形式而改变。这里所说的效果相同,是
从平均意义上来讲的。作多次的随机排列,这些排列所得方
差的平均值随着排列次数的增加而接近简单随机抽样的方差
需要注意的一点是,有时我们虽然不知道总体单元的指
标大小,但是根据某些与指标值有密切关系的辅助变量依然
可以进行令人满意的排列以提高系统抽样的精度。一旦从这
些辅助变量发现总体大小上周期性的变化,那么抽样的间隔
k 必须与该周期错开,否则系统抽样的质量将无法保证。
例如,我们调查某航空公司每月班机旅客人数,在旅游
旺季的月份旅客增多,而在淡季的月份则相反,年年如此。
如果我们对近几年该公司每月记录作系统抽样,若取 k= 12
那么取得的一系列数据要么都是旺季的最高额,要么是淡季
的低客流量,不能很好地反映总的情况。
§ 4 具有线性趋势的总体的抽样方法改进
如果总体的单元按照某个辅助变量的大小顺序排列,而
该辅助变量与我们关心的指标值线性相关,称为线性趋势排
列。由于这在一定程度上相当于按单元大小排列,我们所讨
论的等距( k 为常数)系统抽样有着较高的精度。这种排列
使得系统内样本方差增大,因此系统抽样的方差小于简单随
机抽样方差。
如果按大小分成几个层,在各层中随机取一个单元,如
此分层抽样产生的方差应当比系统抽样方差小。理由很简单
系统抽样中一旦按大小或线性趋势排列,那么各系统完全被
确定,抽样的随机性只是体现在抽哪一个系统。如果抽到的
排列阵靠左的那个系统,那么该系统的各个数值在各个系统
比较之中属于较小;反之,如果抽到排列阵靠右的列,相对
地数值就较大,由此得到的估计量也就偏小或偏大,从而增
大了估计量的方差。而我们所说的分层抽样则不一样,在我
们的排列阵中的每一行随机抽取的一个可以在该行中偏小或
者偏大或者居中,很清楚,由此得到的样本既考虑到按大小
的分层,又比系统抽样的样本更具代表性,一般它的方差要
比较小一些。
这个事实启迪了我们,能否针对系统抽样的缺陷对抽样
方法或估计方法作适当的改进以提高估计的精度呢?以下介
绍的若干方法对于总体单元呈线性趋势的情况是行之有效的
1、首尾校正法
仍考虑,倘若我们随机抽到 i,那么对第 i 个系
统内 n 个样本构成的平均数,Yates(1948)建议不用等权平均
而用加权平均,他所改变的权实际上只针对系统内最小与最
N nk?
大的两个样本,其余的样本仍赋予权 1/n,因此称为首尾校
正法。具体来讲,对首尾两个样本各赋予如下权:
1
1 2 1
2 ( 1 )
ikW
n n k
????
?
1 2 1
2 ( 1 )n
ikW
n n k
????
?
?
?
?
?
?
(10.5)
如果总体单元具有严格的线性趋势 时,无论取
哪一个 i,均有第 i 系统的加权平均数等于总体平均数。
uYu????
如果,按照第一节所叙述的方法,我们知道,选
择的第 i 个系统,有可能第 n 个样本比前 (n- 1)个样本大,
即相当于 时的正常情况,也有可能第 n 个样本越过
而取在 等总体开头的几个单元中(显然其在
总体中的大小位置不会达到或越过第 i 系统的第一个样本)
N nk?
N nk?
NY 12,,YY
此时的加权不能再用 Yates的方法,因此,在 的情况
下,常根据两种情况进行加权:
N nk?
( 1)若,其实这是所谓的“正常”情况,
此时首、尾两个样本单元的权分别为:
( 1 )i n k N? ? ?
1
1 2 ( 1 ) ( 1 )
2 ( 1 )
i n k NW
n n k
? ? ? ???
??
?
?
?
?
(10.6)
1 2 ( 1 ) ( 1 )
2 ( 1 )n
i n k NW
n n k
? ? ? ???
?
( 2)若,此时第 n 个样本(尾样本)出
现在 与我们选取的样本单元 之间(它可能等于 但不
可能取到 ),不妨设该样本为
此时,首尾单元应赋予的权分别为:
( 1 )i n k N? ? ?
1Y iY 1Y
iY ( ( 1 ) )mY m i n k N? ? ? ?
1
1 2 ( 1 ) ( 1 ) 2
2 ( 1 )
i n k N m N nW
n n k
? ? ? ? ???
??
?
?
?
?
(10.7)
1 2 ( 1 ) ( 1 ) 2
2 ( 1 )n
i n k N m N nW
n n k
? ? ? ? ???
?
当然在情况( 1)与( 2)中,其它的样本均赋予权 1/n,
这里应当指出的是,情况( 1)虽属“正常”情况,但它所赋予
的首尾权绝对不等同于 时的( 10.5)式,因为 i 是随
机选取的,因此在 时,( 1)与( 2)必须综合在一
起考虑赋权才能取得较好的效果。
N nk?
N nk?
2、中位样本方法
按单元大小顺序排列,或者与指标值正线性相关的辅助
变量大小顺序排列,都会出现所排阵列中左边系统样本值偏
小、右边系统样本值偏大的现象。一个极好的想法油然而生
我们可以取 1~ k中最中间的那个数作为 i,具体一些:
1
2
1
22
k
i
kk
??
??
? ?
? ?
??
或
k
k
为奇数时
为偶数时
( 10.8)
如果只进行一次调查,这的确是个效果不错的方法,因
为它避免了估计量偏小或偏大的可能。但是,由于我们的排
列方法是按单元大小或按线性趋势进行的,因此总体的确定
就决定了排列的方法,这就决定了样本单元,谈不上随机抽
样这个题目。
3、对称平衡系统抽样法
既希望克服中位数方法的缺乏随机性,又希望避免有些
系统样本估计量过大的偏倚,并希望保留系统抽样的特点,
这三种要求很容易启发我们采用一种,对称系统抽样法,。
仍以 为例,假定 n 为偶数,按单元大小顺序或
按线性趋势将 N 个总体单元从左到右、由上往下排成 2k 列
行的阵列。从 1~ 2k中随机地选取整数 i,对称地再取
(2k- i+ 1),对于新阵列中第 i 个系统与第 (2k- i+ 1)个系统
进行整群抽样,样本容量恰好为 n,不难想象这组样本既具
有随机性又包含了较小和较大两部分的数据,因此它们的平
均数不至于发生很大偏差。
N nk?
2n