§ 1 简单随机抽样及实施方法
简单随机抽样就是从装有 N 张票子的盒子里随机无放
回地摸取 n 张票子,它可以有两种摸取方法:
第三章 简单随机抽样
( 1)从盒子中一次摸取 n 张票。这样摸取共有 种可能
性,每种可能的概率为 。抽到的样本称为简单随机样
本。
???
?
???
?
n
N
??
?
?
??
?
?
n
N
1
( 2)从盒子中随机摸取 1 张票,相应该票的单元入样后,
票并不放回盒子,从余下的票中再随机摸取 1 张票,相应
此票的单元也入样且票也不返回盒子;依此实施,直到第 n
个样本入样。
这两种方法都使用了随机的方法,而且样本并不重复,
那么这两种方法是否都算是简单随机抽样呢?要检验一下这
两种方法中每一单元的入样概率是否相等。只要验证第二种
方法中总体的每 n 个单元一组的样本入样的可能性等于第
一种方法中的 即可。
??
?
?
??
?
?
n
N
1
利用条件概率即可得到验证。
也就是说,两种操作方法是等价的。都是简单随机抽样
但由于 N,n一般都很大,第二种操作方案较方便。现在介绍
一下具体实施简单随机抽样的做法:
首先将 N个总体元素编号为,1,2,,N,每一单元对应
一个号码,若抽到某号,则相应单元入样。
( 1)抽签法:实际上就是一个盒子模型,将编号为 1~ N的
N个形状与质地完全相同的纸签放在盒子里,用上述两种方
法之一从盒子中摸出 n 张签。
( 2)随机数法:设想 N相当大,你会做那么多的签放在盒子
里以供抽取吗?随机数法用来解决这个困难。利用随机数表、
随机数骰子或计算机可以获得随机数。
①随机数表:本书最后附有随机数表,它应当被看成 0~ 9数
字随机地横竖排列,我们可以随机地从某行某列的数字开始
如果需要一至二位数字,则从该数字开始从左向右接连地截
取,该行不够则换下一行开始;如果需要三位或三位以上数
字,则从开头数字开始向右取三位或三位以上的数从该数纵
向往下接连获取其它随机数,不够可另换列执行,直到取到
我们所需要的个数 n, 当然这中间应该去掉可能发生重复的
数以及超出 N的数字。
③利用计算机产生随机数:不少现成的统计软件都可提供此
类服务。但必须指出,这样产生的随机数一般不能保证其随
机性,称为“伪随机数”。因此,提倡前述方法产生随机数。
②随机数骰子:随机数骰子是由均质材料制成的正二十面体
面上标有 0~ 9数字各两个。如图所示。通常用 3~ 6个随机骰
子,视所需要的随机数的位数而定。骰子用不同的颜色染成
可事先规定好哪种颜色的骰子产生个位数,哪种颜色的骰子
产生十位数,依次下去。将所需骰子在盒内摇匀等稳定后揭
盖读取朝上面的数字,即获取一组随机数。所摇的骰子数 m
通常取决于总体单元个数 N,满足 。记 m个
骰子按约定颜色而确定的顺序读得随机数,若,则
此 即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到 n个合格的随机数为止。
mm N 1010 1 ???
0R NR ?0
0R
§ 2 总体平均数与总和的估计
设总体元素为, 为来
自该总体的简单随机样本,有时也记样本为
为 中的某个组合。在后者的表示中
随机性体现在下标 上。样本
是总体 的一个有代表性的剖面。
12,,,NY Y Y 12(,,,)ny y y
12(,,,)ni i iY Y Y
12(,,,)ni i i (1,2,,)N
( 1,2,,)ji j n? 12(,,,)ny y y
12,,,NY Y Y
总体平均数 的估计 为:Y ?
?
?
n
i
iyny
1
1
总体总和的估计 自然为:
?
?
???
n
i
iyn
NyNY
1
?~
由于这两个估计之间仅差一个常数因子 N,因而只要重点研
究 的估计量 的若干性质即可。 是样本平均数,由于样
本的随机性,样本平均值也是随机变量,理论上的平均值
Y y y
y
即数学期望为:
? ???
??
?
?
??
?
?
? )(
11
)(
21 niii
YYY
n
n
N
yE ?
其中 表示对 中所有组合 求和? ),,2,1( N? ),,,(
21 niii ?
对于 中的每个元素,比如,它与其它元
素构成样本的可能次数显然为,因此,乃至 在
中出现的次数均为,于是
),,,( 21 nYYY ? 1Y
1Y iY
?
???????? ?
?
1
1
n
N
???????? ?
?
1
1
n
N
?
?
???
?
?
??
?
?
?
?
?
??
?
?
??
?
?
?
N
i
iY
nn
N
n
N
yE
1
1
1
11
)(
?
?
????? ??
N
i
iYnN
nNn
nNn
N
1
1
!
)!(!
)!()!1(
)!1(
YYN
N
i
i ?? ?
? 1
1
即 是 的无偏估计。同样 也是总体总量 的无偏估计y Y Y?~ Y~
例 3.1 某班第一小组 10人的数学考试成绩分别为:
100,95,92,88,83,75,71,62,60,50
平均分为 77.6。先从中任选 3个为一组样本,其选法共有 120种
每种选法都有概率 1/120。以 4组样本为例 (100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为 95.67,
77.67,77.67,57.33。
从抽样调查的角度来看,我们希望抽到第二或第三组样
本,根据它们来估计总体平均数相当准确。而第一和第四组
样本的估计相当糟糕。但它们入样与第二第三组具有同样的
可能性,这是否与 的无偏性相矛盾呢?y
其实并不相矛盾。我们关心的是,尽管每一组样本入样
的概率相同,像第二第三组这样的“良好”情况就大体而言是
否会多于像第一第四那样的“糟糕”情况呢?如果肯定的话,
那么就能指望在一次随机抽样中发生的估计误差较小。该问
题的解决将由下一节的讨论给出。
§ 3 估计量的方差及其 估计
下面求 的无偏估计 的方差Y y )( yVar
? ??
?
?
??
?
?
?
???
??
?
?
??
?
?
?
2
21
1
)( Y
n
YYY
n
N
yV a r n
iii ?
其中 表示对 中所有组合 求和? ),,2,1( N? ),,,(
21 niii ?
? ? ?
??
?
?
?
??
?
?
? ??
?
?
??
?
?
??
?
?
?
? ?
n
j
n
kj
iii
n
YYYY
n
YY
n
N
kjj
1
22
2 ))((
2
)(1
? ?
? ?
????????
N
i
N
ji
jii YYYYN
n
nNYYnN 1
2 ))((
1
12)(1
})]([11)()111{(1
1 1
22? ?
? ?
?????????
N
i
N
i
ii YYN
nYY
N
n
nN
?
?
??????
N
i
i YYNN
nN
n 1
2)(1
1
1
nN
nN 2
1
??
?
??
n
S
N
n 2)1( ???(或 ) (3.6)
对随机有放回抽样,由于各次抽取是相互独立的,由概率论
的知识可以求得,此时:
nyV a r
2
)( ?? nSN
2
)11( ???(或 )
(3.7)
比较 (3.6)式与 (3.7)式,发现同样用样本平均数来估计总体平
均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 的方差表示新盒子的离散程度,也就是
表示了 取值范围的大小,方差小表明 取值远离中心 的
可能性较小,这样随机的一组样本得到 的实现值距 很近
的可能性就较大,这正是我们所期望的。因此,在实际抽样
中我们采用无放回抽样方式。
y
y y Y
y Y
(3.6)式中的因子 (N- n)/(N- 1),称为随机无放回的校正
系数,它是对随机有放回情况的校正。
如果 N 相当的大,则总体可视为无限总体,由 (3.7)式,
n
S
n
22
??
即为 的方差,这是无限总体情况样本平均数的方差。y
而有限总体的 的方差为:y
n
Sf
n
S
N
n 22 )1()1( ???
因此 称 1- f 为有限总体校正系数,其中 f=n/N,称为抽样比
抽样比就是样本所占总体的比例。 f 越大,越接近 1,则样
本越接近总体,与 的随机误差就越小;当 f=1 时,抽样
变成全面普查,此时误差消失。
y Y
y
一般情况下 f 比较小,由于 N 是固定的,也就意味着 n
相当小,此时 (3.6)式告诉我们 的方差将随着 n 的减少而增
大,此时 1- f 在 1 附近,对 的影响不大。事实上,
抽取样本越少,抽样误差越大。
)( yVar
当然,影响 的方差的另一个重要因素是 或 。设
想,当 相当大时,原盒子中的数据相当地分散,从一个很
分散的盒子中随机取一样本来代替总体,你不可能指望误差
很小。
y 2? 2S
2S
对于 的方差,n 的影响是可以由人们主观控制的,只
要多花费一些,多抽取一些就能适当降低误差,当然这只能
控制在一定范围内。
y
y可见实际抽样调查中用 估计 所产生的随机误差,也
即 的方差,主要受到样本容量 n 的影响,因子 1- f 的影响
几乎可以忽略。
Y
y
的影响是客观存在的,盒子中数据越分散,总体就变
得越难捉摸。实际上,本身就是一个待估参数,必须对
的大小给出估计,不估计 就无法评价 所产生的误差可能
有多大。
2S
2S 2S
2S y
nyyy,,,21 ?设 为来自总体的样本,既然它是总体的
一个缩影,那么这些值的离散程度应该反映了盒子的离散程
度,因此采用统计量(样本方差):
?
?
???
n
i
i yyns
1
22 )(
1
1
来估计 。为了研究统计量 的性质,将 改写为:2S 2s 2s
?
?
?????
n
i
i YyYyns
1
22 )]()[(
1
1
?
?
?????
n
i
i YynYyns
1
222 ])()([
1
1
可以证明,22 )( SsE ? 即 是 的无偏估计2S2s
2s用 作为 的估计,利用正态近似理论可以建立 的置信区间2S Y
当 N,n,N- n 相当大时,的分布近似可用正
态曲线表示,由于 )( yVar
Yy ?
2)11()( S
NnyV a r ??
所以
)()11( 2
1
tt
S
Yy
Nn
P ??
?
?
?
?
?
?
???
?
取置信水平为 ( )??1 10 ?? ?
注意到标准正态曲线关于 0点的对称性,我们有
?? ??
??
?
?
?
??
?
?
?
???
?
?
1)11(
2
1
2
1
u
S
Yy
Nn
P
其中 是标准正态曲线的 分位点,任何一本概率
统计的书上都提供有标准正态分布表以供查取分位点。 21
??u 21
??
这样,的 置信区间为:%100)1( ??Y
])11(,)11([
2
1
2
1
2
1
2
1
?? ?? ???????? uSNnyuSNny
其中 为未知参数,用其无偏估计 来代替,则得置信区间S s
])11(,)11([
2
1
2
1
2
1
2
1
?? ?? ???????? usNnyusNny
])(,)([
2121
?? ?? ???? uyV a ryuyV a ry
或
例 3.2 某镇有 3250名职工,为调查该镇职工收入情况,用简单
随机抽样方式从中抽取 30名,调查结果如教材 53页表 3- 1。
试估计该镇职工的平均月收入,并求置信水平为 95%的近
似置信区间。
Y
解,N= 3250,n= 30
33.6722 0 1 7 0301301
30
1
???? ?
?i
iyy
])(30[130 1)(130 1
30
1
22
30
1
22 ??
??
???????
i
i
i
i yyyys
31.1 8 7 1 087.1 3 5 6 0 8 2 81 4 1 0 3 4 2 8291 ?? )-(
31.1 8 7 1 0)3 2 5 0301(301)1(1)( 2 ????? sNnnyV a r
92.6 1 7?
86.24)( ?yV a r 05.095.01 ???? ??
查标准正态分布表得分位点,96.1
025.01 ??u
于是该镇职工月平均收入的估计值为 672.23元,它的 95%近
似置信区间为:
])(,)([
2121
?? ?? ???? uyV a ryuyV a ry
]96.186.2433.672,96.186.2433.672[ ?????
]06.721,60.623[?
本节主要介绍了 估计 的随机误差以及置信区间的估
计,对于总体总和的情况,从平均数的情况很容易导出有关
结果。
y Y
简单随机抽样就是从装有 N 张票子的盒子里随机无放
回地摸取 n 张票子,它可以有两种摸取方法:
第三章 简单随机抽样
( 1)从盒子中一次摸取 n 张票。这样摸取共有 种可能
性,每种可能的概率为 。抽到的样本称为简单随机样
本。
???
?
???
?
n
N
??
?
?
??
?
?
n
N
1
( 2)从盒子中随机摸取 1 张票,相应该票的单元入样后,
票并不放回盒子,从余下的票中再随机摸取 1 张票,相应
此票的单元也入样且票也不返回盒子;依此实施,直到第 n
个样本入样。
这两种方法都使用了随机的方法,而且样本并不重复,
那么这两种方法是否都算是简单随机抽样呢?要检验一下这
两种方法中每一单元的入样概率是否相等。只要验证第二种
方法中总体的每 n 个单元一组的样本入样的可能性等于第
一种方法中的 即可。
??
?
?
??
?
?
n
N
1
利用条件概率即可得到验证。
也就是说,两种操作方法是等价的。都是简单随机抽样
但由于 N,n一般都很大,第二种操作方案较方便。现在介绍
一下具体实施简单随机抽样的做法:
首先将 N个总体元素编号为,1,2,,N,每一单元对应
一个号码,若抽到某号,则相应单元入样。
( 1)抽签法:实际上就是一个盒子模型,将编号为 1~ N的
N个形状与质地完全相同的纸签放在盒子里,用上述两种方
法之一从盒子中摸出 n 张签。
( 2)随机数法:设想 N相当大,你会做那么多的签放在盒子
里以供抽取吗?随机数法用来解决这个困难。利用随机数表、
随机数骰子或计算机可以获得随机数。
①随机数表:本书最后附有随机数表,它应当被看成 0~ 9数
字随机地横竖排列,我们可以随机地从某行某列的数字开始
如果需要一至二位数字,则从该数字开始从左向右接连地截
取,该行不够则换下一行开始;如果需要三位或三位以上数
字,则从开头数字开始向右取三位或三位以上的数从该数纵
向往下接连获取其它随机数,不够可另换列执行,直到取到
我们所需要的个数 n, 当然这中间应该去掉可能发生重复的
数以及超出 N的数字。
③利用计算机产生随机数:不少现成的统计软件都可提供此
类服务。但必须指出,这样产生的随机数一般不能保证其随
机性,称为“伪随机数”。因此,提倡前述方法产生随机数。
②随机数骰子:随机数骰子是由均质材料制成的正二十面体
面上标有 0~ 9数字各两个。如图所示。通常用 3~ 6个随机骰
子,视所需要的随机数的位数而定。骰子用不同的颜色染成
可事先规定好哪种颜色的骰子产生个位数,哪种颜色的骰子
产生十位数,依次下去。将所需骰子在盒内摇匀等稳定后揭
盖读取朝上面的数字,即获取一组随机数。所摇的骰子数 m
通常取决于总体单元个数 N,满足 。记 m个
骰子按约定颜色而确定的顺序读得随机数,若,则
此 即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到 n个合格的随机数为止。
mm N 1010 1 ???
0R NR ?0
0R
§ 2 总体平均数与总和的估计
设总体元素为, 为来
自该总体的简单随机样本,有时也记样本为
为 中的某个组合。在后者的表示中
随机性体现在下标 上。样本
是总体 的一个有代表性的剖面。
12,,,NY Y Y 12(,,,)ny y y
12(,,,)ni i iY Y Y
12(,,,)ni i i (1,2,,)N
( 1,2,,)ji j n? 12(,,,)ny y y
12,,,NY Y Y
总体平均数 的估计 为:Y ?
?
?
n
i
iyny
1
1
总体总和的估计 自然为:
?
?
???
n
i
iyn
NyNY
1
?~
由于这两个估计之间仅差一个常数因子 N,因而只要重点研
究 的估计量 的若干性质即可。 是样本平均数,由于样
本的随机性,样本平均值也是随机变量,理论上的平均值
Y y y
y
即数学期望为:
? ???
??
?
?
??
?
?
? )(
11
)(
21 niii
YYY
n
n
N
yE ?
其中 表示对 中所有组合 求和? ),,2,1( N? ),,,(
21 niii ?
对于 中的每个元素,比如,它与其它元
素构成样本的可能次数显然为,因此,乃至 在
中出现的次数均为,于是
),,,( 21 nYYY ? 1Y
1Y iY
?
???????? ?
?
1
1
n
N
???????? ?
?
1
1
n
N
?
?
???
?
?
??
?
?
?
?
?
??
?
?
??
?
?
?
N
i
iY
nn
N
n
N
yE
1
1
1
11
)(
?
?
????? ??
N
i
iYnN
nNn
nNn
N
1
1
!
)!(!
)!()!1(
)!1(
YYN
N
i
i ?? ?
? 1
1
即 是 的无偏估计。同样 也是总体总量 的无偏估计y Y Y?~ Y~
例 3.1 某班第一小组 10人的数学考试成绩分别为:
100,95,92,88,83,75,71,62,60,50
平均分为 77.6。先从中任选 3个为一组样本,其选法共有 120种
每种选法都有概率 1/120。以 4组样本为例 (100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为 95.67,
77.67,77.67,57.33。
从抽样调查的角度来看,我们希望抽到第二或第三组样
本,根据它们来估计总体平均数相当准确。而第一和第四组
样本的估计相当糟糕。但它们入样与第二第三组具有同样的
可能性,这是否与 的无偏性相矛盾呢?y
其实并不相矛盾。我们关心的是,尽管每一组样本入样
的概率相同,像第二第三组这样的“良好”情况就大体而言是
否会多于像第一第四那样的“糟糕”情况呢?如果肯定的话,
那么就能指望在一次随机抽样中发生的估计误差较小。该问
题的解决将由下一节的讨论给出。
§ 3 估计量的方差及其 估计
下面求 的无偏估计 的方差Y y )( yVar
? ??
?
?
??
?
?
?
???
??
?
?
??
?
?
?
2
21
1
)( Y
n
YYY
n
N
yV a r n
iii ?
其中 表示对 中所有组合 求和? ),,2,1( N? ),,,(
21 niii ?
? ? ?
??
?
?
?
??
?
?
? ??
?
?
??
?
?
??
?
?
?
? ?
n
j
n
kj
iii
n
YYYY
n
YY
n
N
kjj
1
22
2 ))((
2
)(1
? ?
? ?
????????
N
i
N
ji
jii YYYYN
n
nNYYnN 1
2 ))((
1
12)(1
})]([11)()111{(1
1 1
22? ?
? ?
?????????
N
i
N
i
ii YYN
nYY
N
n
nN
?
?
??????
N
i
i YYNN
nN
n 1
2)(1
1
1
nN
nN 2
1
??
?
??
n
S
N
n 2)1( ???(或 ) (3.6)
对随机有放回抽样,由于各次抽取是相互独立的,由概率论
的知识可以求得,此时:
nyV a r
2
)( ?? nSN
2
)11( ???(或 )
(3.7)
比较 (3.6)式与 (3.7)式,发现同样用样本平均数来估计总体平
均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 的方差表示新盒子的离散程度,也就是
表示了 取值范围的大小,方差小表明 取值远离中心 的
可能性较小,这样随机的一组样本得到 的实现值距 很近
的可能性就较大,这正是我们所期望的。因此,在实际抽样
中我们采用无放回抽样方式。
y
y y Y
y Y
(3.6)式中的因子 (N- n)/(N- 1),称为随机无放回的校正
系数,它是对随机有放回情况的校正。
如果 N 相当的大,则总体可视为无限总体,由 (3.7)式,
n
S
n
22
??
即为 的方差,这是无限总体情况样本平均数的方差。y
而有限总体的 的方差为:y
n
Sf
n
S
N
n 22 )1()1( ???
因此 称 1- f 为有限总体校正系数,其中 f=n/N,称为抽样比
抽样比就是样本所占总体的比例。 f 越大,越接近 1,则样
本越接近总体,与 的随机误差就越小;当 f=1 时,抽样
变成全面普查,此时误差消失。
y Y
y
一般情况下 f 比较小,由于 N 是固定的,也就意味着 n
相当小,此时 (3.6)式告诉我们 的方差将随着 n 的减少而增
大,此时 1- f 在 1 附近,对 的影响不大。事实上,
抽取样本越少,抽样误差越大。
)( yVar
当然,影响 的方差的另一个重要因素是 或 。设
想,当 相当大时,原盒子中的数据相当地分散,从一个很
分散的盒子中随机取一样本来代替总体,你不可能指望误差
很小。
y 2? 2S
2S
对于 的方差,n 的影响是可以由人们主观控制的,只
要多花费一些,多抽取一些就能适当降低误差,当然这只能
控制在一定范围内。
y
y可见实际抽样调查中用 估计 所产生的随机误差,也
即 的方差,主要受到样本容量 n 的影响,因子 1- f 的影响
几乎可以忽略。
Y
y
的影响是客观存在的,盒子中数据越分散,总体就变
得越难捉摸。实际上,本身就是一个待估参数,必须对
的大小给出估计,不估计 就无法评价 所产生的误差可能
有多大。
2S
2S 2S
2S y
nyyy,,,21 ?设 为来自总体的样本,既然它是总体的
一个缩影,那么这些值的离散程度应该反映了盒子的离散程
度,因此采用统计量(样本方差):
?
?
???
n
i
i yyns
1
22 )(
1
1
来估计 。为了研究统计量 的性质,将 改写为:2S 2s 2s
?
?
?????
n
i
i YyYyns
1
22 )]()[(
1
1
?
?
?????
n
i
i YynYyns
1
222 ])()([
1
1
可以证明,22 )( SsE ? 即 是 的无偏估计2S2s
2s用 作为 的估计,利用正态近似理论可以建立 的置信区间2S Y
当 N,n,N- n 相当大时,的分布近似可用正
态曲线表示,由于 )( yVar
Yy ?
2)11()( S
NnyV a r ??
所以
)()11( 2
1
tt
S
Yy
Nn
P ??
?
?
?
?
?
?
???
?
取置信水平为 ( )??1 10 ?? ?
注意到标准正态曲线关于 0点的对称性,我们有
?? ??
??
?
?
?
??
?
?
?
???
?
?
1)11(
2
1
2
1
u
S
Yy
Nn
P
其中 是标准正态曲线的 分位点,任何一本概率
统计的书上都提供有标准正态分布表以供查取分位点。 21
??u 21
??
这样,的 置信区间为:%100)1( ??Y
])11(,)11([
2
1
2
1
2
1
2
1
?? ?? ???????? uSNnyuSNny
其中 为未知参数,用其无偏估计 来代替,则得置信区间S s
])11(,)11([
2
1
2
1
2
1
2
1
?? ?? ???????? usNnyusNny
])(,)([
2121
?? ?? ???? uyV a ryuyV a ry
或
例 3.2 某镇有 3250名职工,为调查该镇职工收入情况,用简单
随机抽样方式从中抽取 30名,调查结果如教材 53页表 3- 1。
试估计该镇职工的平均月收入,并求置信水平为 95%的近
似置信区间。
Y
解,N= 3250,n= 30
33.6722 0 1 7 0301301
30
1
???? ?
?i
iyy
])(30[130 1)(130 1
30
1
22
30
1
22 ??
??
???????
i
i
i
i yyyys
31.1 8 7 1 087.1 3 5 6 0 8 2 81 4 1 0 3 4 2 8291 ?? )-(
31.1 8 7 1 0)3 2 5 0301(301)1(1)( 2 ????? sNnnyV a r
92.6 1 7?
86.24)( ?yV a r 05.095.01 ???? ??
查标准正态分布表得分位点,96.1
025.01 ??u
于是该镇职工月平均收入的估计值为 672.23元,它的 95%近
似置信区间为:
])(,)([
2121
?? ?? ???? uyV a ryuyV a ry
]96.186.2433.672,96.186.2433.672[ ?????
]06.721,60.623[?
本节主要介绍了 估计 的随机误差以及置信区间的估
计,对于总体总和的情况,从平均数的情况很容易导出有关
结果。
y Y