抽样调查理论与方法：3-1～3.PPT

分类：统计格式：ppt 日期：2006年02月08日

§ 1 简单随机抽样及实施方法
简单随机抽样就是从装有 N 张票子的盒子里随机无放
回地摸取 n 张票子，它可以有两种摸取方法：
第三章简单随机抽样
（ 1）从盒子中一次摸取 n 张票。这样摸取共有种可能
性，每种可能的概率为。抽到的样本称为简单随机样
本。
???
?
???
?
n
N
??
?
?
??
?
?
n
N
1
（ 2）从盒子中随机摸取 1 张票，相应该票的单元入样后，
票并不放回盒子，从余下的票中再随机摸取 1 张票，相应
此票的单元也入样且票也不返回盒子；依此实施，直到第 n
个样本入样。
这两种方法都使用了随机的方法，而且样本并不重复，
那么这两种方法是否都算是简单随机抽样呢？要检验一下这
两种方法中每一单元的入样概率是否相等。只要验证第二种
方法中总体的每 n 个单元一组的样本入样的可能性等于第
一种方法中的即可。
??
?
?
??
?
?
n
N
1
利用条件概率即可得到验证。
也就是说，两种操作方法是等价的。都是简单随机抽样
但由于 N,n一般都很大，第二种操作方案较方便。现在介绍
一下具体实施简单随机抽样的做法：
首先将 N个总体元素编号为,1,2，,N，每一单元对应
一个号码，若抽到某号，则相应单元入样。
（ 1）抽签法：实际上就是一个盒子模型，将编号为 1～ N的
N个形状与质地完全相同的纸签放在盒子里，用上述两种方
法之一从盒子中摸出 n 张签。
（ 2）随机数法：设想 N相当大，你会做那么多的签放在盒子
里以供抽取吗？随机数法用来解决这个困难。利用随机数表、
随机数骰子或计算机可以获得随机数。
①随机数表：本书最后附有随机数表，它应当被看成 0～ 9数
字随机地横竖排列，我们可以随机地从某行某列的数字开始
如果需要一至二位数字，则从该数字开始从左向右接连地截
取，该行不够则换下一行开始；如果需要三位或三位以上数
字，则从开头数字开始向右取三位或三位以上的数从该数纵
向往下接连获取其它随机数，不够可另换列执行，直到取到
我们所需要的个数 n, 当然这中间应该去掉可能发生重复的
数以及超出 N的数字。
③利用计算机产生随机数：不少现成的统计软件都可提供此
类服务。但必须指出，这样产生的随机数一般不能保证其随
机性，称为“伪随机数”。因此，提倡前述方法产生随机数。
②随机数骰子：随机数骰子是由均质材料制成的正二十面体
面上标有 0～ 9数字各两个。如图所示。通常用 3～ 6个随机骰
子，视所需要的随机数的位数而定。骰子用不同的颜色染成
可事先规定好哪种颜色的骰子产生个位数，哪种颜色的骰子
产生十位数，依次下去。将所需骰子在盒内摇匀等稳定后揭
盖读取朝上面的数字，即获取一组随机数。所摇的骰子数 m
通常取决于总体单元个数 N,满足。记 m个
骰子按约定颜色而确定的顺序读得随机数,若,则
此即为一次合格的随机数；否则予以放弃，重新摇取，直
到取到 n个合格的随机数为止。
mm N 1010 1 ???
0R NR ?0
0R
§ 2 总体平均数与总和的估计
设总体元素为, 为来
自该总体的简单随机样本，有时也记样本为
为中的某个组合。在后者的表示中
随机性体现在下标上。样本
是总体的一个有代表性的剖面。
12,,,NY Y Y 12(,,,)ny y y
12(,,,)ni i iY Y Y
12(,,,)ni i i (1,2,,)N
( 1,2,,)ji j n? 12(,,,)ny y y
12,,,NY Y Y
总体平均数的估计为：Y ?
?
?
n
i
iyny
1
1
总体总和的估计自然为：
?
?
???
n
i
iyn
NyNY
1
?~
由于这两个估计之间仅差一个常数因子 N，因而只要重点研
究的估计量的若干性质即可。是样本平均数，由于样
本的随机性，样本平均值也是随机变量,理论上的平均值
Y y y
y
即数学期望为：
? ???
??
?
?
??
?
?
? )(
11
)(
21 niii
YYY
n
n
N
yE ?
其中表示对中所有组合求和? ),,2,1( N? ),,,(
21 niii ?
对于中的每个元素，比如,它与其它元
素构成样本的可能次数显然为,因此,乃至在
中出现的次数均为,于是
),,,( 21 nYYY ? 1Y
1Y iY
?
???????? ?
?
1
1
n
N
???????? ?
?
1
1
n
N
?
?
???
?
?
??
?
?
?
?
?
??
?
?
??
?
?
?
N
i
iY
nn
N
n
N
yE
1
1
1
11
)(
?
?
????? ??
N
i
iYnN
nNn
nNn
N
1
1
!
)!(!
)!()!1(
)!1(
YYN
N
i
i ?? ?
? 1
1
即是的无偏估计。同样也是总体总量的无偏估计y Y Y?~ Y~
例 3.1 某班第一小组 10人的数学考试成绩分别为：
100,95,92,88,83,75,71,62,60,50
平均分为 77.6。先从中任选 3个为一组样本，其选法共有 120种
每种选法都有概率 1/120。以 4组样本为例 (100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为 95.67，
77.67,77.67,57.33。
从抽样调查的角度来看，我们希望抽到第二或第三组样
本，根据它们来估计总体平均数相当准确。而第一和第四组
样本的估计相当糟糕。但它们入样与第二第三组具有同样的
可能性，这是否与的无偏性相矛盾呢？y
其实并不相矛盾。我们关心的是，尽管每一组样本入样
的概率相同，像第二第三组这样的“良好”情况就大体而言是
否会多于像第一第四那样的“糟糕”情况呢？如果肯定的话，
那么就能指望在一次随机抽样中发生的估计误差较小。该问
题的解决将由下一节的讨论给出。
§ 3 估计量的方差及其估计
下面求的无偏估计的方差Y y )( yVar
? ??
?
?
??
?
?
?
???
??
?
?
??
?
?
?
2
21
1
)( Y
n
YYY
n
N
yV a r n
iii ?
其中表示对中所有组合求和? ),,2,1( N? ),,,(
21 niii ?
? ? ?
??
?
?
?
??
?
?
? ??
?
?
??
?
?
??
?
?
?
? ?
n
j
n
kj
iii
n
YYYY
n
YY
n
N
kjj
1
22
2 ))((
2
)(1
? ?
? ?
????????
N
i
N
ji
jii YYYYN
n
nNYYnN 1
2 ))((
1
12)(1
})]([11)()111{(1
1 1
22? ?
? ?
?????????
N
i
N
i
ii YYN
nYY
N
n
nN
?
?
??????
N
i
i YYNN
nN
n 1
2)(1
1
1
nN
nN 2
1
??
?
??
n
S
N
n 2)1( ???（或） (3.6)
对随机有放回抽样，由于各次抽取是相互独立的，由概率论
的知识可以求得，此时：
nyV a r
2
)( ?? nSN
2
)11( ???（或）
(3.7)
比较 (3.6)式与 (3.7)式，发现同样用样本平均数来估计总体平
均数，它们都是无偏估计，但随机无放回时的方差小于随机
有放回时的方差。的方差表示新盒子的离散程度，也就是
表示了取值范围的大小，方差小表明取值远离中心的
可能性较小，这样随机的一组样本得到的实现值距很近
的可能性就较大，这正是我们所期望的。因此，在实际抽样
中我们采用无放回抽样方式。
y
y y Y
y Y
(3.6)式中的因子 (N－ n)/(N－ 1)，称为随机无放回的校正
系数，它是对随机有放回情况的校正。
如果 N 相当的大，则总体可视为无限总体，由 (3.7)式，
n
S
n
22
??
即为的方差，这是无限总体情况样本平均数的方差。y
而有限总体的的方差为：y
n
Sf
n
S
N
n 22 )1()1( ???
因此称 1－ f 为有限总体校正系数,其中 f=n/N，称为抽样比
抽样比就是样本所占总体的比例。 f 越大，越接近 1，则样
本越接近总体,与的随机误差就越小；当 f=1 时，抽样
变成全面普查，此时误差消失。
y Y
y
一般情况下 f 比较小，由于 N 是固定的，也就意味着 n
相当小，此时 (3.6)式告诉我们的方差将随着 n 的减少而增
大，此时 1－ f 在 1 附近，对的影响不大。事实上，
抽取样本越少，抽样误差越大。
)( yVar
当然，影响的方差的另一个重要因素是或。设
想，当相当大时，原盒子中的数据相当地分散，从一个很
分散的盒子中随机取一样本来代替总体，你不可能指望误差
很小。
y 2? 2S
2S
对于的方差,n 的影响是可以由人们主观控制的，只
要多花费一些，多抽取一些就能适当降低误差，当然这只能
控制在一定范围内。
y
y可见实际抽样调查中用估计所产生的随机误差，也
即的方差，主要受到样本容量 n 的影响，因子 1－ f 的影响
几乎可以忽略。
Y
y
的影响是客观存在的，盒子中数据越分散，总体就变
得越难捉摸。实际上,本身就是一个待估参数，必须对
的大小给出估计，不估计就无法评价所产生的误差可能
有多大。
2S
2S 2S
2S y
nyyy,,,21 ?设为来自总体的样本，既然它是总体的
一个缩影，那么这些值的离散程度应该反映了盒子的离散程
度，因此采用统计量（样本方差）：
?
?
???
n
i
i yyns
1
22 )(
1
1
来估计。为了研究统计量的性质，将改写为：2S 2s 2s
?
?
?????
n
i
i YyYyns
1
22 )]()[(
1
1
?
?
?????
n
i
i YynYyns
1
222 ])()([
1
1
可以证明,22 )( SsE ? 即是的无偏估计2S2s
2s用作为的估计，利用正态近似理论可以建立的置信区间2S Y
当 N,n,N－ n 相当大时,的分布近似可用正
态曲线表示，由于 )( yVar
Yy ?
2)11()( S
NnyV a r ??
所以
)()11( 2
1
tt
S
Yy
Nn
P ??
?
?
?
?
?
?
???
?
取置信水平为（）??1 10 ?? ?
注意到标准正态曲线关于 0点的对称性，我们有
?? ??
??
?
?
?
??
?
?
?
???
?
?
1)11(
2
1
2
1
u
S
Yy
Nn
P
其中是标准正态曲线的分位点，任何一本概率
统计的书上都提供有标准正态分布表以供查取分位点。 21
??u 21
??
这样,的置信区间为：%100)1( ??Y
])11(,)11([
2
1
2
1
2
1
2
1
?? ?? ???????? uSNnyuSNny
其中为未知参数，用其无偏估计来代替，则得置信区间S s
])11(,)11([
2
1
2
1
2
1
2
1
?? ?? ???????? usNnyusNny
])(,)([
2121
?? ?? ???? uyV a ryuyV a ry
或
例 3.2 某镇有 3250名职工，为调查该镇职工收入情况，用简单
随机抽样方式从中抽取 30名，调查结果如教材 53页表 3－ 1。
试估计该镇职工的平均月收入,并求置信水平为 95％的近
似置信区间。
Y
解,N＝ 3250,n＝ 30
33.6722 0 1 7 0301301
30
1
???? ?
?i
iyy
])(30[130 1)(130 1
30
1
22
30
1
22 ??
??
???????
i
i
i
i yyyys
31.1 8 7 1 087.1 3 5 6 0 8 2 81 4 1 0 3 4 2 8291 ?? ）－（
31.1 8 7 1 0)3 2 5 0301(301)1(1)( 2 ????? sNnnyV a r
92.6 1 7?
86.24)( ?yV a r 05.095.01 ???? ??
查标准正态分布表得分位点,96.1
025.01 ??u
于是该镇职工月平均收入的估计值为 672.23元，它的 95％近
似置信区间为：
])(,)([
2121
?? ?? ???? uyV a ryuyV a ry
]96.186.2433.672,96.186.2433.672[ ?????
]06.721,60.623[?
本节主要介绍了估计的随机误差以及置信区间的估
计，对于总体总和的情况，从平均数的情况很容易导出有关
结果。
y Y

课件简介

课件名称：	抽样调查理论与方法
课件分类：	统计
课件类型：	电子教案
文件大小：	4.45MB
下载次数：	4
评论次数：	3
用户评分：	8

显示更多>>

用户列表

更多用户>>

关于我们|帮助中心|意见反馈|联系我们