第七章 等距抽样
第一节 等距抽样概述
第二节 等距抽样的实施方法
第三节 总体参数的估计
第四节 其它形式的等距抽样
第一节 等距抽样概述
一、等距抽样的概念
二、排序标志
三、等距抽样的特点一、等距抽样的概念
等距抽样也称系统抽样或机械抽样。它是将总体各抽样单元按一定的标志和顺序排列以后,每隔一定的距离 (间隔 )抽取一个单元组成样本进行调查。
二、排序标志
等距抽样需要有作为排序依据的辅助标志。
排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。
1
所谓无关标志排序,即用来对总体单元进行排序的标志,与所要调查研究的标志是不同性质的,
二者没有任何必然的关系。如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,
一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的,所以也有人直接称无关标志排序的等距抽样为无序等距抽样。
2
所谓有关标志排序,即用来对总体单元规定排列次序的辅助标志,与调查标志具有共同性质或密切关系。这种排序标志,在我国抽样调查实践中有广泛应用,
如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。利用这些辅助标志排序,有利于提高等距抽样的抽样效果。
三、等距抽样的特点
(1)将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确,在某些场合下甚至可以不用抽样框。
并且如果能够利用好样本的相应顺序在总体中均匀分布这一特点,则容易形成一个按比例样本。
三、等距抽样的特点
(2)等距抽样简单明了,快速经济,操作灵活方便,
使用面广,是单阶段抽样中变化最多的一种抽样技术。等距抽样最初用于森林和土地使用情况的调查,
后来经过汉森、麦多、科克伦等学者的努力,使其成为当今家计调查、记录抽样、空间抽样、工业抽样和为普查取得附加信息及估计非抽样误差的一种常用方法。在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、人口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。
三、等距抽样的特点
(3)当 N=nK时,等距抽样就等同于每层只抽一个单元的分层抽样或群的大小相等时只抽一个群的整群抽样。
三、等距抽样的特点
因为,这时,总体各单元可排列成如下方式:
y11 y21? yi1 yk1
y12 y22? yi2 yk2
┋ ┋ ┋ ┋ ┋
y1n y2n? yin ykn
三、等距抽样的特点
(4)等距抽样的样本常被视为一个集体单元,
一般不计算样本调查变量的方差,所以它只能抽象地进行理论分析,而不能对抽样方差进行估计。
三、等距抽样的特点
(5)若总体中的单元呈周期性的变化,等距抽样的精度可能很高也可能很差。这时要慎重地选择 K。
第二节 等距抽样的实施方法
一、随机起点等距抽样
二、循环等距抽样
三、中点等距抽样
四、对称等距抽样法
五、两端修正法
六、总体有周期性变化时的等距抽样
七、累计和等距抽样一、随机起点等距抽样
随机起点等距抽样就是前面概念所描述的方法。具体地说,它是在总体单元排序后的第 1至 K单元之间 (第一个抽样间隔之内 )
随机抽取一个整数 i,以它作为起始单元的编号,以后按固定的顺序和间隔依次在每个间隔之内各抽取一个单元组成等距样本,
则整个样本是由以下编号的单元所组成的 。
i+(j-1)K (j=1,2,?,n)
由于 N不一定恰好是 K的整数倍,所以按上述方法得到的等距样本的样本量可能为
为避免这种样本量不能确定的情况,确保样本量为 n,1952年拉希里提出了循环等距抽样的方法。
个。或 1 knKN nn
二、循环等距抽样
在 N≠nK 时,把总体中的 N个单元按一定顺序排列成一个首尾相接的环 (圆形图 ),取最接近于 N/n的整数为抽样间隔 K,然后在 1到 N的单元中,随机抽取一个单元 (设为第 i单元 )作为起点,再沿着圆圈按一定方向每间隔 K抽取一个单元,直到抽够 n个单元为止 。 按此方法,可以保证样本量 n不变 。 不过此时首尾两个样本单元的间隔不一定恰好为 K,
它可能小于 K,也可能大于 K。
循环等距抽样从本质上看仍然是随机起点等距抽样 。
我们注意到,当 N=nK时,在上述两种抽样实施方法中,无论按哪一种方法,总体中每个单元的入样概率都相等,从而是一种严格的等概率抽样。
但当 N≠nK时,按第一种方法每一个单元的入样概率依赖于初始值 i,对不同的 i,稍有不同。以下为了处理方便,我们假定 N总是 n的整数倍。在实际工作中,若 n充分大,则由于 N/n非整数而带来的影响就充分小,可以忽略不计。
三、中点等距抽样
1953年麦多为克服随机起点等距抽样容易产生系统性偏差的缺点,提出中点等距抽样 (即抽取中心位置的样本 )法:计算出抽样间隔 K后,以第一组的组中点为起点,等距抽取单元组成样本。如果 K为奇数,以
( K+1) /2为起点,K为偶数,以 K/2或
(K+2)/2为起点。
四、对称等距抽样法
对称等距抽样也是针对有序等距抽样所提出的,其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。由于具体的方法不同,对称等距抽样又有几种类型。
1.塞蒂的方法 ——
两两对称等距抽样
1965年塞蒂提出了一种新的等距抽样方法 ——
对称等距抽样法,以克服总体的线性趋势对估计效率的影响 。
设 N=nK,n为偶数。抽样时,先把总体单元分成 n/2个抽样间隔,使每一抽样间隔含有 2K个单元。然后,在每一抽样间隔内,抽取分别与两端距离相等的两个单元,这样共抽取 n个单元组成等距样本。
即:如果随机起点为 i,则在第一个抽样间隔所抽两个样本单元的号码分别为 i及 2K-i+1;在第二个抽样间隔所抽两个样本单元号码为 i+2K及 2(2K)-
i+1;如此,最后在第 n/2个抽样间隔所抽两个样本单元号码分别为 i+(n-2)K及 nK-i+1。
一般,若随机起为 i,则抽中的 n/2对样本单元的号码可以表示为
i+2jK,2(j+1)K-i+1 ]
[j=0,1,?,(n/2)-1]]
当 n为奇数时,式中的 j由 0变到 (n-1)/2-1
为止,并且,要加上接近末端的第 i+(n-
1)K个单元 。
实际中,为便于对称等距抽样的实施,当 N=nK
时,可以将原来由小到大 (或由大到小 )顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。所谓顺逆交替是指在单元的排序中,
若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。
2、辛的修正方法 ——
中心对称等距抽样
1968年,辛等人提出另一种对称等距抽样法 —— 中心对称等距抽样法 。 即在有序排列的总体单元中,从两端划分抽样间隔 。
并从两端的抽样间隔开始,成对地抽取到两端距离相等的单元组成等距样本 。
这里,仍假定 N=nK。当 n为偶数时,若随机起点为 i,则与之对称的样本单元号为倒数第一个抽样间隔中的 N-i+1;与第二个抽样间隔中 i+K对称的是倒数第二个抽样间隔的 (N-K)-i+1;如此,一直抽到中间两个抽样间隔为止。一般,以
i(i=1,2,…,K)为随机起点的 n/2对对称等距样本单元的号码可以表示为:
[ i+jK,(N-jK)-i+1],[j=0,1,?,
(n/2)-1]
当 n为奇数时,式中的 j由 0变到 [(n-
1)/2]-1为止。然后,再加上中间一个抽样间隔中的第 i+(n-1)K/2个单元。 (我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。 )
五、两端修正法
抽样方法同随机起点等距抽样时的情形。
但在计算总体均值的估计量时,对第一个和最后一个样本单元加权,其余单元的权数仍为 1(在除以 n以前 ),以矫正由于起点不在中心位置而引起的系统偏差。
1,耶茨的方法:
设 N=nK,i为 1~ K中的随机数,则两端的样本单元的权数分别为:
其中,+”号用于第一个样本单元,,-”
号用于第 n个样本单元 (下同 )。当总体单元具有严格的线性趋势时,加权的样本均值就是总体均值。
Kn
Kin
)1(2
)12(1
2、具尔豪斯与拉奥的方法
适用于 N≠nK 的情况,并采用循环等距抽样法,设 i为 1~ N中的随机数 。
(1)若 i+(n-1)K≤N,这时 n个样本单元不经过 yN,则第 1个样本单元和第 n个样本单元的权数分别为
Kn
NKnin
)1(2
)]1()1(2[1
(2)若 i+(n-1)K>N,设 yN以后的样本单元有 n2个,则第 1个样本单元和第 n个样本单元的权数分别为:
]2)1()1(2[
)1(2
1 2
n
NNnNKni
Kn
n
六、总体有周期性变化时的等距抽样
有一些总体,其单元的标志值在随时间的自然排列顺序中,会呈现某种明显或不明显的周期变化趋势 。 如季节性消费商品的销售量,随一年四季的变化而呈现出周期变化 。 还有些总体,反映出不明显的周期影响 。 对有周期变化趋势的总体进行等距抽样时,抽样间隔 K的选择,对估计效率的影响是极为重要的 。 为了说明问题,我们不妨假定总体单元标志值的变化为一正弦曲线 。
七、累计和等距抽样
以上所讨论的等距抽样都是以各单元大小相同为前提的,是等概率抽样。如果抽样单元的大小不同,且单元的大小又与调查变量相关时,用上述方法就不大合适了,
此时,应采用不等概率抽样。
其基本思路是:在总体各单元按某一标志排序后,
累计各单元的大小 M i(当各抽样单元的大小用所含下一阶单元的数目表示时,也可直接累计其下一阶单元数 )并进行编码,以总的累计数除以 n作为抽样间隔,用 K表示,然后在最初的 1到 K个数中随机确定一个数 j(1≤j≤K),j所对应的单元即为第一个被抽中单元,以后每间隔 K抽取一个随机数,并按同样的方法确定出对应的单元作为样本单元,组成等距样本。累计和等距抽样的原理同上一章所讨论的群大小不等时群的代码法,此法在实际工作中经常用到。
第三节 总体参数的估计
一、等概率抽样的情形
二、不等概率抽样的情形一、等概率抽样的情形
为讨论方便,仍假设 N=nK,则在如下的排列形式中,
(i=1,2,?,K)
n
j
iji yny
1
1
y 11 y 21? y i1 y k1
y 12 y 22? y i2 y k2
┋ ┋ ┋ ┋ ┋
y 1n y 2n? y in y kn
(一 )估计量
设等距样本为表中第 i列单元,且 i是随机决定的,总体均值的估计量用表示,则
n
j
ijisy ynyy
1
1
是 的无偏估计。
若 N≠nK,则上述估计量是有偏的,
但当 n充分大时,其偏倚可以充分小。
Y
Y
(二 )估计量的方差
如前所述,如果总体单元是按无关标志排列的,则其方差可按简单随机抽样去做 。
若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,
有几种表示方法
1,用等距样本内 (群内 )方差表示
设等距样本为表中第 i列单元,且 i是随机决定的,则:
22 )1(1)(
w s ysy SN
nKS
N
NyV
其中
)(
)1(
12
i
n
j
ij
K
i
w s y yynKS
为等距样本 (群 )内方差; S2 为总体方差 。
这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简单随机抽样有更高的精度。因此,为了提高等距抽样的精度,只要有可能就在对总体单元排序时尽可能扩大各等距样本内的差异。
当且仅当
2
wsyS
>S2 时,等距抽样比简单随机抽样精度高。
2、用等距样本内 (群内 )相关系数表示
],)1(1[
1
)(
2
w s ysy
nS
N
N
yV
))((
)1)(1(
2
)(
)()(
22
YyYy
SNnYyE
YyEYyE K
i
n
uj
iuij
ij
iuij
w s y
为同一等距样本内 (群内 )成对的单元之间的相关系数。当 的值大于 0时,方差的值就会变大。
wsy? )( syyV
3、用同一等距样本内单元对关于层平均值的相关系数表示
],)1(1[)(
2
w s t
w s t
sy n
N
nN
n
S
yV
)(
)1(
1
2
h
K
i
ij
n
h
w s t
yy
Kn
S?
N
nN
n
S
w s t
2
恰为比例分配分层随机抽样的方差 ;
K
i
ihh
y
K
y
1
1
是第 h层即第 h间隔的平均值 ;
K
i
n
uh w st
uiuhih
hih
uiuhih
w s t
S
yyyy
Nnn
yyE
yyEyyE
2
2
))((
)1)(1(
2
)(
)()(
是等距样本内单位对关于层平均值的相关系数。可见,当 =0时,等距样本与每层取一个单元的分层随机样本精度相同; wst?
wst?
wst?
> 0时,等距抽样的精度低于分层随机抽样;
< 0时,等距抽样的精度高于分层随机抽样。
(三 )方差估计量
前已指出,等距抽样相当于群的大小相等时的整群抽样,但抽中的是一个群,这就使这个受人欢迎的抽样方法有了一些遗憾:等距抽样没有无偏的方差估计量。这里只介绍两种方差估计方法。
而在冯士雍、施锡铨著的,抽样调查 — 理论、方法与实践,一书中,列举了八种不同的方差估计量,并进行了比较分析。
1、总体单元无序排列 (即按无关标志排列 )时
可把等距样本看成是简单随机样本,因此,
其方差估计量可表示为:
21)(? s
n
f
yV sy
其中
n
j
syj
yy
n
s
1
22
)(
1
1
2、总体单元有序排列 (按相关标志排列 )时
前已指出,等距抽样可看成是从每层抽取 1
个单元的分层抽样。但凭一个单元的标志值无法估计层内方差,于是把相邻两行 (层 )
的 2K个单元组成一层,从中抽取 2个单元作为样本,这样总体就被合成了 n/2层 (假设 n为偶数 )。
第 h层的层内方差
h=1,2,?,1/2
2
122
2 )(
2
1
hihih yyS
将诸代入比例分配的分层随机抽样的有关公式,则2hS
21)(? hhst SWn fyV
nW h
2?
将上式中的下标 h改为 j就得到
( 1)式式中:
2
1
1
2
1222 )(
1
)(?
j
jijisy yyn
f
yV
2
1
1
122 )(
j
jiji yy
是相邻两个标志值的一阶差分,
它们间互不重叠,
中利用了 n/2个这样的一阶差分,这就要求 n
必须是偶数 。 为摆脱这个限制,增加平方和的自由度,以每相邻两个标志值的一阶差分 (它们是重叠的,共 n-1个 )代替 n/2个不相重叠的一阶差分,得:
)(? syyV
(2)式
n
j
ijij
sy
n
yy
n
f
yV
2
2
1
)1(2
)(1
)(?
(1)式和(2)式的对比
研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优良性,即使对总体的性质知道得很少,它们也是一个好的方差估计量。但(1)式受到 n必为偶数的限制,因而(2)式更值得推荐。
此外,也有人建议采用交叉子样本法来估计等距抽样的方差,但这种方法在实际操作中有诸多的不便,且当各子样本不大时,
效果也一般。对此感兴趣的读者可参阅有关文献。
二、不等概率抽样的情形
等距抽样中每个单元的入样概率也可以是不相等的 。 一般的不等概率等距抽样定义如下:
令{ πi}是一组入样概率,i=1,2,…,N,且
n
N
i
i
1
,r 是[ 0,1
,,
1
1
1
kk
i
j
i
i
i
i
krkr k =0,1,?,n - 1
时,总体中的第 i1,i2,…,in个单元即为抽中的样本单元。当每个 πi≤1时,抽样是严格不放回的。最常用的也是最简单的不等概率等距抽样是 πPS等距抽样,
即令 πi与单元大小 Mi成比例
i
i
i nZM
Mn
0
不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节中已作了介绍 。
与其他不放回的不等概率抽样一样,不等概率等距抽样对总体总和 Y的估计也是采用霍维茨 — 汤普森估计
n
i i
i
HT
yY
1
对于 π PS等距抽样,又有
n
i i
i
HT
y
n
Y
1
1?
是无偏的,其方差可表示为
(此时,n是固定的 )
.)()(
2
1
)?(
2
1 1
1 1
2
1
j
j
i
i
N
i
N
j
ijji
N
i
N
j ji
jiij
i
N
i i
i
HT
YY
YYV
由于对一般的 n,π ij的形式极为复杂,
且有可能为零,因此,关于的估计可按如下思路进行:
一种考虑是将不放回的 πPS等距样本作为放回的 PPS样本处理可得到如下的方差估计形式
2
2
1
)?(
)1(
1
)?(
)1(
1
HT
i
i
HT
n
i i
i
Y
ny
nn
Y
z
y
nn
因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数 (fpc)1-f,由于这里的单元实际上是不平等的,因此,f
不是简单的等于 n/N。我们使用 f的以下估计
n
i
i
n
f
1
1?
则可以得到方差估计量的另一种形式
n
i
HT
i
i
n
i
i
HT
Y
ny
nn
n
YV
1
21
)?(
)1(
/1
)?(
对于随机排列的总体,
此公式的效果很好。
)?( HTYV
若考虑用相邻样本观测值 (但这里需用 nyi/πi代替等概率情形的
yi)差值的平方和来表示方差,
则得到或
2/
1
2
12
12
2
2
2
)(
1
)?(
n
i i
i
i
i
HT
nyny
n
f
YV
n
i i
i
i
i
HT
nyny
nn
f
YV
2
2
1
1 )(
)1(2
1
)?(
对于具有线性趋势的总体,
这两个方差估计量特别适用。
第四节 其它形式的等距抽样
一、分层等距抽样
二、二维等距抽样二维等距抽样
二维等距抽样,是对分布在平面上的总体单元直接进行的等距抽样 。 如农产量调查和森林木材积蓄量调查中,从抽中地块抽取样本点,即属这种情况 。
实际上,我们所研究的总体单元绝大多数分布在平面上,以前是通过对总体单元的编号,排队等方法,将它化为,一维等距抽样,。 但在一些情况下,还需直接在平面上抽取样本 。
二维等距抽样的方法很多,下面仅介绍几种最简单、实用的方法。
1、方格法
是将总体所在的平面区域 G,按照需要抽取的样本单元数划分为若干大小相同的方格,然后以等距方式在每个方格抽取一个样本单元组成样本 。 即抽样间隔之长等于方格的边长,可按下述公式计算:
n
GK?
其中,K=抽样间隔; G=总体区域的面积; n=样本单元数
这里,为方便讨论,假定地块的图形是长为 a,宽为 b的长方形,置于平面直角坐标系的第一象限 。 且 a=Kp,b=Kq,p,q
为整数,pq=n。
当然,实际中的地块常常是不规则的,并不满足上述条件,
但可通过割补法化成比较规则的几何图形,近似按上述方法处理 。
从方格中抽取样本点有多种方法 。 ① 若取随机起点,并且它的坐标为 (i,j)。 所有样本点的 坐 标 可 表 示 为,
(i+Ks,j+Kt),
s=0,1,2,…,p-1 ; t=0,
1,2,…,q-1[JB]
② 另一种方法是,把样本点放在每一方格的中心处,称为中心方格法。 其样本的坐标为:
(K/2)+Ks,(K/2)+Kt).(s=0
,1,2,…,p-1; t=1,2,…,q-1)
这种方法在农产量调查中多用于平播、撒播、窄垄和株行距较小的作物,如麦、水稻等。实际中,
每个样本点是用测规或测框划出的园形或方形小地块,称为面积样本。每个样本点的面积常为
10平方市尺,这样,便于计算。
这种方法也称为框测法
2、垄测法
对于宽垄和株行距较大的作物,
如玉米,薯类等,常采用垄测法 。
垄测法需先计算地块所有垄的总垄长,依地块情况,可按下述方法计算:
总垄长 =平均垄长 × 垄数 =地块总面积 /平均垄宽,
其中:平均垄宽 =地块两端宽度之和 /地块两端垄数之和,
样间隔 K=总垄长 /样本单元数抽取时,从地块的一角开始,即从第一垄开始,按等距抽样方法依次向各垄抽取,每个样本点是长度为 10市尺的垄段,这种样本也称为长度样本 。
实用中,还有许多方法,如将地块划分为正三角形小块,形成三角形网,使样本点散布于正三角形的顶点上 。 也还可以利用试验设计的方法安排样本 。
关于二维等距抽样的应用可参看农产量调查。
此外,在实际工作中当总体各单元标志值的变化比较均匀,且层界不明显时,也常采用等距分层抽样的方法。其基本思想是,先对总体按有关标志排序,然后等分成 L个间隔。将每个间隔视为一层,在各层内分别独立进行简单随机抽样。
它与一般分层抽样的区别在于,
将不同大小的层 (用各层所含单元数表示 )调整为同大小的层;
它与一般等距抽样的区别在于,
改每层按固定位置抽取一个单元为每层独立抽取若干个单元。在等距分层抽样中,其估计量及方差仍按一般分层随机抽样方式去构造。
第一节 等距抽样概述
第二节 等距抽样的实施方法
第三节 总体参数的估计
第四节 其它形式的等距抽样
第一节 等距抽样概述
一、等距抽样的概念
二、排序标志
三、等距抽样的特点一、等距抽样的概念
等距抽样也称系统抽样或机械抽样。它是将总体各抽样单元按一定的标志和顺序排列以后,每隔一定的距离 (间隔 )抽取一个单元组成样本进行调查。
二、排序标志
等距抽样需要有作为排序依据的辅助标志。
排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。
1
所谓无关标志排序,即用来对总体单元进行排序的标志,与所要调查研究的标志是不同性质的,
二者没有任何必然的关系。如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,
一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的,所以也有人直接称无关标志排序的等距抽样为无序等距抽样。
2
所谓有关标志排序,即用来对总体单元规定排列次序的辅助标志,与调查标志具有共同性质或密切关系。这种排序标志,在我国抽样调查实践中有广泛应用,
如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。利用这些辅助标志排序,有利于提高等距抽样的抽样效果。
三、等距抽样的特点
(1)将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确,在某些场合下甚至可以不用抽样框。
并且如果能够利用好样本的相应顺序在总体中均匀分布这一特点,则容易形成一个按比例样本。
三、等距抽样的特点
(2)等距抽样简单明了,快速经济,操作灵活方便,
使用面广,是单阶段抽样中变化最多的一种抽样技术。等距抽样最初用于森林和土地使用情况的调查,
后来经过汉森、麦多、科克伦等学者的努力,使其成为当今家计调查、记录抽样、空间抽样、工业抽样和为普查取得附加信息及估计非抽样误差的一种常用方法。在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、人口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。
三、等距抽样的特点
(3)当 N=nK时,等距抽样就等同于每层只抽一个单元的分层抽样或群的大小相等时只抽一个群的整群抽样。
三、等距抽样的特点
因为,这时,总体各单元可排列成如下方式:
y11 y21? yi1 yk1
y12 y22? yi2 yk2
┋ ┋ ┋ ┋ ┋
y1n y2n? yin ykn
三、等距抽样的特点
(4)等距抽样的样本常被视为一个集体单元,
一般不计算样本调查变量的方差,所以它只能抽象地进行理论分析,而不能对抽样方差进行估计。
三、等距抽样的特点
(5)若总体中的单元呈周期性的变化,等距抽样的精度可能很高也可能很差。这时要慎重地选择 K。
第二节 等距抽样的实施方法
一、随机起点等距抽样
二、循环等距抽样
三、中点等距抽样
四、对称等距抽样法
五、两端修正法
六、总体有周期性变化时的等距抽样
七、累计和等距抽样一、随机起点等距抽样
随机起点等距抽样就是前面概念所描述的方法。具体地说,它是在总体单元排序后的第 1至 K单元之间 (第一个抽样间隔之内 )
随机抽取一个整数 i,以它作为起始单元的编号,以后按固定的顺序和间隔依次在每个间隔之内各抽取一个单元组成等距样本,
则整个样本是由以下编号的单元所组成的 。
i+(j-1)K (j=1,2,?,n)
由于 N不一定恰好是 K的整数倍,所以按上述方法得到的等距样本的样本量可能为
为避免这种样本量不能确定的情况,确保样本量为 n,1952年拉希里提出了循环等距抽样的方法。
个。或 1 knKN nn
二、循环等距抽样
在 N≠nK 时,把总体中的 N个单元按一定顺序排列成一个首尾相接的环 (圆形图 ),取最接近于 N/n的整数为抽样间隔 K,然后在 1到 N的单元中,随机抽取一个单元 (设为第 i单元 )作为起点,再沿着圆圈按一定方向每间隔 K抽取一个单元,直到抽够 n个单元为止 。 按此方法,可以保证样本量 n不变 。 不过此时首尾两个样本单元的间隔不一定恰好为 K,
它可能小于 K,也可能大于 K。
循环等距抽样从本质上看仍然是随机起点等距抽样 。
我们注意到,当 N=nK时,在上述两种抽样实施方法中,无论按哪一种方法,总体中每个单元的入样概率都相等,从而是一种严格的等概率抽样。
但当 N≠nK时,按第一种方法每一个单元的入样概率依赖于初始值 i,对不同的 i,稍有不同。以下为了处理方便,我们假定 N总是 n的整数倍。在实际工作中,若 n充分大,则由于 N/n非整数而带来的影响就充分小,可以忽略不计。
三、中点等距抽样
1953年麦多为克服随机起点等距抽样容易产生系统性偏差的缺点,提出中点等距抽样 (即抽取中心位置的样本 )法:计算出抽样间隔 K后,以第一组的组中点为起点,等距抽取单元组成样本。如果 K为奇数,以
( K+1) /2为起点,K为偶数,以 K/2或
(K+2)/2为起点。
四、对称等距抽样法
对称等距抽样也是针对有序等距抽样所提出的,其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。由于具体的方法不同,对称等距抽样又有几种类型。
1.塞蒂的方法 ——
两两对称等距抽样
1965年塞蒂提出了一种新的等距抽样方法 ——
对称等距抽样法,以克服总体的线性趋势对估计效率的影响 。
设 N=nK,n为偶数。抽样时,先把总体单元分成 n/2个抽样间隔,使每一抽样间隔含有 2K个单元。然后,在每一抽样间隔内,抽取分别与两端距离相等的两个单元,这样共抽取 n个单元组成等距样本。
即:如果随机起点为 i,则在第一个抽样间隔所抽两个样本单元的号码分别为 i及 2K-i+1;在第二个抽样间隔所抽两个样本单元号码为 i+2K及 2(2K)-
i+1;如此,最后在第 n/2个抽样间隔所抽两个样本单元号码分别为 i+(n-2)K及 nK-i+1。
一般,若随机起为 i,则抽中的 n/2对样本单元的号码可以表示为
i+2jK,2(j+1)K-i+1 ]
[j=0,1,?,(n/2)-1]]
当 n为奇数时,式中的 j由 0变到 (n-1)/2-1
为止,并且,要加上接近末端的第 i+(n-
1)K个单元 。
实际中,为便于对称等距抽样的实施,当 N=nK
时,可以将原来由小到大 (或由大到小 )顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。所谓顺逆交替是指在单元的排序中,
若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。
2、辛的修正方法 ——
中心对称等距抽样
1968年,辛等人提出另一种对称等距抽样法 —— 中心对称等距抽样法 。 即在有序排列的总体单元中,从两端划分抽样间隔 。
并从两端的抽样间隔开始,成对地抽取到两端距离相等的单元组成等距样本 。
这里,仍假定 N=nK。当 n为偶数时,若随机起点为 i,则与之对称的样本单元号为倒数第一个抽样间隔中的 N-i+1;与第二个抽样间隔中 i+K对称的是倒数第二个抽样间隔的 (N-K)-i+1;如此,一直抽到中间两个抽样间隔为止。一般,以
i(i=1,2,…,K)为随机起点的 n/2对对称等距样本单元的号码可以表示为:
[ i+jK,(N-jK)-i+1],[j=0,1,?,
(n/2)-1]
当 n为奇数时,式中的 j由 0变到 [(n-
1)/2]-1为止。然后,再加上中间一个抽样间隔中的第 i+(n-1)K/2个单元。 (我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。 )
五、两端修正法
抽样方法同随机起点等距抽样时的情形。
但在计算总体均值的估计量时,对第一个和最后一个样本单元加权,其余单元的权数仍为 1(在除以 n以前 ),以矫正由于起点不在中心位置而引起的系统偏差。
1,耶茨的方法:
设 N=nK,i为 1~ K中的随机数,则两端的样本单元的权数分别为:
其中,+”号用于第一个样本单元,,-”
号用于第 n个样本单元 (下同 )。当总体单元具有严格的线性趋势时,加权的样本均值就是总体均值。
Kn
Kin
)1(2
)12(1
2、具尔豪斯与拉奥的方法
适用于 N≠nK 的情况,并采用循环等距抽样法,设 i为 1~ N中的随机数 。
(1)若 i+(n-1)K≤N,这时 n个样本单元不经过 yN,则第 1个样本单元和第 n个样本单元的权数分别为
Kn
NKnin
)1(2
)]1()1(2[1
(2)若 i+(n-1)K>N,设 yN以后的样本单元有 n2个,则第 1个样本单元和第 n个样本单元的权数分别为:
]2)1()1(2[
)1(2
1 2
n
NNnNKni
Kn
n
六、总体有周期性变化时的等距抽样
有一些总体,其单元的标志值在随时间的自然排列顺序中,会呈现某种明显或不明显的周期变化趋势 。 如季节性消费商品的销售量,随一年四季的变化而呈现出周期变化 。 还有些总体,反映出不明显的周期影响 。 对有周期变化趋势的总体进行等距抽样时,抽样间隔 K的选择,对估计效率的影响是极为重要的 。 为了说明问题,我们不妨假定总体单元标志值的变化为一正弦曲线 。
七、累计和等距抽样
以上所讨论的等距抽样都是以各单元大小相同为前提的,是等概率抽样。如果抽样单元的大小不同,且单元的大小又与调查变量相关时,用上述方法就不大合适了,
此时,应采用不等概率抽样。
其基本思路是:在总体各单元按某一标志排序后,
累计各单元的大小 M i(当各抽样单元的大小用所含下一阶单元的数目表示时,也可直接累计其下一阶单元数 )并进行编码,以总的累计数除以 n作为抽样间隔,用 K表示,然后在最初的 1到 K个数中随机确定一个数 j(1≤j≤K),j所对应的单元即为第一个被抽中单元,以后每间隔 K抽取一个随机数,并按同样的方法确定出对应的单元作为样本单元,组成等距样本。累计和等距抽样的原理同上一章所讨论的群大小不等时群的代码法,此法在实际工作中经常用到。
第三节 总体参数的估计
一、等概率抽样的情形
二、不等概率抽样的情形一、等概率抽样的情形
为讨论方便,仍假设 N=nK,则在如下的排列形式中,
(i=1,2,?,K)
n
j
iji yny
1
1
y 11 y 21? y i1 y k1
y 12 y 22? y i2 y k2
┋ ┋ ┋ ┋ ┋
y 1n y 2n? y in y kn
(一 )估计量
设等距样本为表中第 i列单元,且 i是随机决定的,总体均值的估计量用表示,则
n
j
ijisy ynyy
1
1
是 的无偏估计。
若 N≠nK,则上述估计量是有偏的,
但当 n充分大时,其偏倚可以充分小。
Y
Y
(二 )估计量的方差
如前所述,如果总体单元是按无关标志排列的,则其方差可按简单随机抽样去做 。
若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,
有几种表示方法
1,用等距样本内 (群内 )方差表示
设等距样本为表中第 i列单元,且 i是随机决定的,则:
22 )1(1)(
w s ysy SN
nKS
N
NyV
其中
)(
)1(
12
i
n
j
ij
K
i
w s y yynKS
为等距样本 (群 )内方差; S2 为总体方差 。
这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简单随机抽样有更高的精度。因此,为了提高等距抽样的精度,只要有可能就在对总体单元排序时尽可能扩大各等距样本内的差异。
当且仅当
2
wsyS
>S2 时,等距抽样比简单随机抽样精度高。
2、用等距样本内 (群内 )相关系数表示
],)1(1[
1
)(
2
w s ysy
nS
N
N
yV
))((
)1)(1(
2
)(
)()(
22
YyYy
SNnYyE
YyEYyE K
i
n
uj
iuij
ij
iuij
w s y
为同一等距样本内 (群内 )成对的单元之间的相关系数。当 的值大于 0时,方差的值就会变大。
wsy? )( syyV
3、用同一等距样本内单元对关于层平均值的相关系数表示
],)1(1[)(
2
w s t
w s t
sy n
N
nN
n
S
yV
)(
)1(
1
2
h
K
i
ij
n
h
w s t
yy
Kn
S?
N
nN
n
S
w s t
2
恰为比例分配分层随机抽样的方差 ;
K
i
ihh
y
K
y
1
1
是第 h层即第 h间隔的平均值 ;
K
i
n
uh w st
uiuhih
hih
uiuhih
w s t
S
yyyy
Nnn
yyE
yyEyyE
2
2
))((
)1)(1(
2
)(
)()(
是等距样本内单位对关于层平均值的相关系数。可见,当 =0时,等距样本与每层取一个单元的分层随机样本精度相同; wst?
wst?
wst?
> 0时,等距抽样的精度低于分层随机抽样;
< 0时,等距抽样的精度高于分层随机抽样。
(三 )方差估计量
前已指出,等距抽样相当于群的大小相等时的整群抽样,但抽中的是一个群,这就使这个受人欢迎的抽样方法有了一些遗憾:等距抽样没有无偏的方差估计量。这里只介绍两种方差估计方法。
而在冯士雍、施锡铨著的,抽样调查 — 理论、方法与实践,一书中,列举了八种不同的方差估计量,并进行了比较分析。
1、总体单元无序排列 (即按无关标志排列 )时
可把等距样本看成是简单随机样本,因此,
其方差估计量可表示为:
21)(? s
n
f
yV sy
其中
n
j
syj
yy
n
s
1
22
)(
1
1
2、总体单元有序排列 (按相关标志排列 )时
前已指出,等距抽样可看成是从每层抽取 1
个单元的分层抽样。但凭一个单元的标志值无法估计层内方差,于是把相邻两行 (层 )
的 2K个单元组成一层,从中抽取 2个单元作为样本,这样总体就被合成了 n/2层 (假设 n为偶数 )。
第 h层的层内方差
h=1,2,?,1/2
2
122
2 )(
2
1
hihih yyS
将诸代入比例分配的分层随机抽样的有关公式,则2hS
21)(? hhst SWn fyV
nW h
2?
将上式中的下标 h改为 j就得到
( 1)式式中:
2
1
1
2
1222 )(
1
)(?
j
jijisy yyn
f
yV
2
1
1
122 )(
j
jiji yy
是相邻两个标志值的一阶差分,
它们间互不重叠,
中利用了 n/2个这样的一阶差分,这就要求 n
必须是偶数 。 为摆脱这个限制,增加平方和的自由度,以每相邻两个标志值的一阶差分 (它们是重叠的,共 n-1个 )代替 n/2个不相重叠的一阶差分,得:
)(? syyV
(2)式
n
j
ijij
sy
n
yy
n
f
yV
2
2
1
)1(2
)(1
)(?
(1)式和(2)式的对比
研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优良性,即使对总体的性质知道得很少,它们也是一个好的方差估计量。但(1)式受到 n必为偶数的限制,因而(2)式更值得推荐。
此外,也有人建议采用交叉子样本法来估计等距抽样的方差,但这种方法在实际操作中有诸多的不便,且当各子样本不大时,
效果也一般。对此感兴趣的读者可参阅有关文献。
二、不等概率抽样的情形
等距抽样中每个单元的入样概率也可以是不相等的 。 一般的不等概率等距抽样定义如下:
令{ πi}是一组入样概率,i=1,2,…,N,且
n
N
i
i
1
,r 是[ 0,1
,,
1
1
1
kk
i
j
i
i
i
i
krkr k =0,1,?,n - 1
时,总体中的第 i1,i2,…,in个单元即为抽中的样本单元。当每个 πi≤1时,抽样是严格不放回的。最常用的也是最简单的不等概率等距抽样是 πPS等距抽样,
即令 πi与单元大小 Mi成比例
i
i
i nZM
Mn
0
不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节中已作了介绍 。
与其他不放回的不等概率抽样一样,不等概率等距抽样对总体总和 Y的估计也是采用霍维茨 — 汤普森估计
n
i i
i
HT
yY
1
对于 π PS等距抽样,又有
n
i i
i
HT
y
n
Y
1
1?
是无偏的,其方差可表示为
(此时,n是固定的 )
.)()(
2
1
)?(
2
1 1
1 1
2
1
j
j
i
i
N
i
N
j
ijji
N
i
N
j ji
jiij
i
N
i i
i
HT
YY
YYV
由于对一般的 n,π ij的形式极为复杂,
且有可能为零,因此,关于的估计可按如下思路进行:
一种考虑是将不放回的 πPS等距样本作为放回的 PPS样本处理可得到如下的方差估计形式
2
2
1
)?(
)1(
1
)?(
)1(
1
HT
i
i
HT
n
i i
i
Y
ny
nn
Y
z
y
nn
因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数 (fpc)1-f,由于这里的单元实际上是不平等的,因此,f
不是简单的等于 n/N。我们使用 f的以下估计
n
i
i
n
f
1
1?
则可以得到方差估计量的另一种形式
n
i
HT
i
i
n
i
i
HT
Y
ny
nn
n
YV
1
21
)?(
)1(
/1
)?(
对于随机排列的总体,
此公式的效果很好。
)?( HTYV
若考虑用相邻样本观测值 (但这里需用 nyi/πi代替等概率情形的
yi)差值的平方和来表示方差,
则得到或
2/
1
2
12
12
2
2
2
)(
1
)?(
n
i i
i
i
i
HT
nyny
n
f
YV
n
i i
i
i
i
HT
nyny
nn
f
YV
2
2
1
1 )(
)1(2
1
)?(
对于具有线性趋势的总体,
这两个方差估计量特别适用。
第四节 其它形式的等距抽样
一、分层等距抽样
二、二维等距抽样二维等距抽样
二维等距抽样,是对分布在平面上的总体单元直接进行的等距抽样 。 如农产量调查和森林木材积蓄量调查中,从抽中地块抽取样本点,即属这种情况 。
实际上,我们所研究的总体单元绝大多数分布在平面上,以前是通过对总体单元的编号,排队等方法,将它化为,一维等距抽样,。 但在一些情况下,还需直接在平面上抽取样本 。
二维等距抽样的方法很多,下面仅介绍几种最简单、实用的方法。
1、方格法
是将总体所在的平面区域 G,按照需要抽取的样本单元数划分为若干大小相同的方格,然后以等距方式在每个方格抽取一个样本单元组成样本 。 即抽样间隔之长等于方格的边长,可按下述公式计算:
n
GK?
其中,K=抽样间隔; G=总体区域的面积; n=样本单元数
这里,为方便讨论,假定地块的图形是长为 a,宽为 b的长方形,置于平面直角坐标系的第一象限 。 且 a=Kp,b=Kq,p,q
为整数,pq=n。
当然,实际中的地块常常是不规则的,并不满足上述条件,
但可通过割补法化成比较规则的几何图形,近似按上述方法处理 。
从方格中抽取样本点有多种方法 。 ① 若取随机起点,并且它的坐标为 (i,j)。 所有样本点的 坐 标 可 表 示 为,
(i+Ks,j+Kt),
s=0,1,2,…,p-1 ; t=0,
1,2,…,q-1[JB]
② 另一种方法是,把样本点放在每一方格的中心处,称为中心方格法。 其样本的坐标为:
(K/2)+Ks,(K/2)+Kt).(s=0
,1,2,…,p-1; t=1,2,…,q-1)
这种方法在农产量调查中多用于平播、撒播、窄垄和株行距较小的作物,如麦、水稻等。实际中,
每个样本点是用测规或测框划出的园形或方形小地块,称为面积样本。每个样本点的面积常为
10平方市尺,这样,便于计算。
这种方法也称为框测法
2、垄测法
对于宽垄和株行距较大的作物,
如玉米,薯类等,常采用垄测法 。
垄测法需先计算地块所有垄的总垄长,依地块情况,可按下述方法计算:
总垄长 =平均垄长 × 垄数 =地块总面积 /平均垄宽,
其中:平均垄宽 =地块两端宽度之和 /地块两端垄数之和,
样间隔 K=总垄长 /样本单元数抽取时,从地块的一角开始,即从第一垄开始,按等距抽样方法依次向各垄抽取,每个样本点是长度为 10市尺的垄段,这种样本也称为长度样本 。
实用中,还有许多方法,如将地块划分为正三角形小块,形成三角形网,使样本点散布于正三角形的顶点上 。 也还可以利用试验设计的方法安排样本 。
关于二维等距抽样的应用可参看农产量调查。
此外,在实际工作中当总体各单元标志值的变化比较均匀,且层界不明显时,也常采用等距分层抽样的方法。其基本思想是,先对总体按有关标志排序,然后等分成 L个间隔。将每个间隔视为一层,在各层内分别独立进行简单随机抽样。
它与一般分层抽样的区别在于,
将不同大小的层 (用各层所含单元数表示 )调整为同大小的层;
它与一般等距抽样的区别在于,
改每层按固定位置抽取一个单元为每层独立抽取若干个单元。在等距分层抽样中,其估计量及方差仍按一般分层随机抽样方式去构造。