抽样调查理论与方法：2-7.PPT

分类：统计格式：ppt 日期：2006年02月08日

§ 7 若干数学准备
抽样推断既然必须处理收集来的数据，因此数学知识是
必不可少的。下面仅就抽样调查中一些最基本的常用数学知
识和概念以直观简洁的方式做一些介绍。
1、盒子模型
一般抽样调查面临的总体只有有限多个初级单元。从总
体中抽样，就相当于从一个盒子里摸取若干张票，盒子里的
票数相当于有限总体的单元个数，票上记载着反映该单元特
征的指标的值。设总体有 N个单元，各指标值为
则盒子如图 2－ 1所示：
NYYY,,,21 ?
NYYY,,,21 ?
图 2－ 1
该盒中票的平均数为：
)(1 21 NYYYNY ???? ?
即总体平均数，它表示票上指标的中心。
另一个重要的总体参数是盒中票的指标的离散程度，用指标
值关于中心的距离的平方和的平均数来表示：
2
1
2 )(1 YY
N i
N
i
?? ?
?
?
这实际上是总体的方差；但大部分情况采用：
2
1
2 )(
1
1 YY
NS i
N
i
??? ?
?
如果我们只关心总体中具有某些特定类型的集合占整个
总体的比例，那么只需稍加处理，引入 0－ 1指标，总体比例
的问题立刻转化为总体平均数的一个特例。
只要将盒子中的票子分为两类，我们感兴趣的一类全标
上 1，其余的都标上 0。于是盒子可用图 2－ 2表示：
图 2－ 2
1 0个
1N 个1NN ?
则盒子中票子指标的平均数为：
N
NY
N
Y i
N
i
1
1
1 ?? ?
?
正好是我们关心的那类个体占总体的比例。因此，凡对总体
平均数有的结果，总体比例也有相应的结果。
此时，盒子的方差化为：
2
1
2 )(1 YY
N i
N
i
?? ?
?
?
}))(()({1 211211 NNNNN NNNN ????
N
NN
N
N 11 ???
)0()1( 所占比例总体中所占比例总体中 ??
常采用的方差表示为：
22
1 ??? N
NS
N
NN
N
N
N
N 11
1
???
??
从盒子中作随机抽取常常有两种不同方式：随机有放回
抽取和随机无放回抽取。从直观上看，随机有放回方式存在
着一张票子被抽中两次或两次以上的可能性，而随机无放回
方式则不存在这种可能。
在实际操作中，人们不太可能心甘情愿地花费两倍以上
的费用去访问同一个单元。因此，随机无放回通常比随机有
放回应“有效”一些，这一点将在第三章的讨论中在理论上加
以肯定。但是，当盒子中的票数相当多，而抽取的票数相对
较少时，有许多事件的概率习性对于有放回或无放回两种情
况几乎差不多，因而有时候我们常从随机有放回这一最简单
的形式入手讨论问题，而将有关的结果近似地套到随机无放
回的情形。
这里讨论的盒子模型是对简单随机抽样而言的，至于分
层、分阶段等其它情况无非是大盒子里放小盒子等。
2、随机误差与无偏估计量
先讨论一个简单的具体例子。设有一个容量为 7的总体
由下面盒子给出，如图 2－ 3所示：
图 2－ 3
1 2 3 4 5 6 7
总体平均数和方差为：
4
7
1 7
1
?? ?
?
i
i
YY 67.4)(17 1 2
7
1
2 ??
?? ?? YYS ii
标准差 16.22 ?? SS
此时，盒子中指标值以及总体的参数和对于调查者
来说是未知的。调查者的任务就是从总体中抽出一个样本，
构造样本估计量，来推断总体平均数和方差。
Y
Y
2S
2S
设样本容量 n=3，使用样本的样本均值和方
差
来估计总体的平均值和方差。
),,( 321 yyy
i
i
yy ?
?
?
3
13
1 23
1
2 )(
13
1 yys
i
i
??? ?
?
Y 2S
考虑不放回简单随机抽样，由于抽样是随机的,7个个体中
的任何 3个都可能入选样本。所有可能的样本数有
3
73
7 C?
???
?
???
?
此时，每一个样本被抽中的概率都相等且为
???
?
???
?
3
71
如抽中样本（ 2,3,6），则
67.3)632(31 ????y
33.4])67.36()67.33()67.32[(13 1 2222 ????????s
用它们来估计总体的平均数和方差，误差如下：
对平均数有随机误差 33.0467.3 ????? Yy
对方差有随机误差 34.067.433.422 ????? Ss
由于样本是随机的，误差也将随着样本的不同而发生
变化。如果我们的运气不佳，抽到样本（ 1,2,3），此时
2)321(31 ????y
1])23()22()21[(13 1 2222 ????????s
随机误差分别为
242 ????? Yy 67.367.4122 ????? Ss
随机误差就大得许多。也就是说，用样本平均数和方差
来估计总体平均数和方差有时是很糟糕的。
为什么还要用样本平均数和方差来估计总体平均数和方差呢？
原因一,和是样本平均数和方差的波动中心Y 2S y 2s
)(
3
7
1
之和所有可能的 y
??
?
?
??
?
?
? ??
??
?
?
??
?
?
?
互不相等
321,,
321 )(3
1
3
7
1
yyy
yyy
)7654321(
2
6
3
1
3
7
1
?????????
?
?
??
?
?
?
??
?
?
??
?
?
?
)7654321(42 6317 43 ????????? ！！！！！！
换句话说,虽然估计量和会发生随机误差，随机误差
有正有负，但随机误差的平均值为 0。或者说，所有可能的
和的平均值分别为和。
y 2s
y 2s 2SY
以前述例子为例：所有可能的的平均值为y
Y????????? 4)7654321(71
类似：所有可能的的平均值为2s
)(
3
7
1 2
之和所有可能的 s
??
?
?
??
?
?
? ? ?
??
?
?
??
?
?
?
?
互不相等
321,,
2
3
1
)(
2
1
3
7
1
yyy
i
i
yy
? ? ???
??
?
?
??
?
?
?
?
互不相等
321,,
22
3
1
])(3)([
2
1
3
7
1
yyy
i
i
YyYy
? ? ?
??
?
?
??
?
?
??
?
互不相等
321,,
2
3
1
)(
3
7
1
2
1
yyy
i
i
Yy ? ?
??
?
?
??
?
?
??
互不相等
321,,
2)(
3
7
1
2
3
yyy
Yy
2222
6
7
3
1
6
4
2
3
2
3 S?????? ???
原因二,随着样本容量 n 的增大（与总体容量 N相比仍可
能很小）,与以及与发生大的误差的可能性越
来越小，以至于可以忽略，而误差在 0 附近的可能性变得越
来越大，或者说某种平均意义下的误差越来越小。
Y 2Sy 2s
一般来说，基于抽样数据的统计量 —— 通常记为,在
前面的例子中是和 —— 作为参数的估计量，总是希望
能够较好地近似代表。由于依据局部来估计总体避免不了
会发生误差，这个误差还是随机的，任何两次抽样所产生的
误差都不会相同，每次所产生的误差都是这个随机变量的一
次实现。
y 2s
n??
?
?
另外，待估参数又是未知的，我们也不可能知道抽样误
差到底等于多少。为了排除偶然因素，我们往往从平均意义
上来看抽样误差。这就是在数学上对随机变量取数学期望。
如果估计的统计量具有性质：,则称为
的无偏估计。
? n?? ?? ?nE ? n??
?
前述例子就说明,YyE ? 22 SEs ?
即和分别是和的无偏估计。。y Y2s 2S
以上分析告诉我们，所谓无偏估计并非是说估计量与参
数之间就没有偏差，而是说估计量所有可能取值的平均值等
于参数。或者说估计量与参数的平均偏差为零。
数理统计告诉我们，并非所有的待估参数都存在无偏估
计。例如成功率为 p 的 n 次贝努里试验，其中成功的次数 x
服从二项分布，对于观察到的成功次数 x,可用 x/n 估计参
数 p,而且是无偏估计。但参数 1/p 不存在无偏估计。
其实，有偏估计不见得一定讨厌。虽然是的有偏
估计，即,但是随着样本容量 n 的增大，
n?? ?
?? ?nE ? ?? ?nE ?
并且具有其它良好的性质。称具有这种性质的估计量为
渐近无偏估计量。抽样调查中的比估计量就是一种渐近无偏
估计量。在抽样调查理论中，有必要讨论有偏估计，这是因
为：
n??
（ 1）对于某些常见的参数，我们经常采用一些既合理又方
便的估计量。这些估计量在实际操作中能为几乎所有的人
接受，而它们却不是无偏估计量。
（ 2）既使我们采用的估计量是概率意义上的无偏估计量，
但在实际抽样中却变成了有偏估计，这是由抽样本身造成的
例如：在抽样中常常发生不回答现象，这些不回答的人一般
对所调查的问题带有一定的倾向性，根据回答者提供的资料
构造的理论上的无偏估计实质上并非整个总体的参数的无偏
估计。
3、随机误差的度量
对无偏估计，我们已经知道估计量与参数的差
的所有可能取值的平均值等于 0，即。用这个平
均的概念是无法度量估计量的偏差的。
?n? ? ?n???
?( ) 0nE ????
?()nM SE ? ?()nVar ??2?()nE ????
以一元参数为例，由于随机性,可以在的左边，也
可以在的右边，而在前述平均意义下，这些正负偏差将互
相抵消。随机误差的正负号是没有多大意义的，实际关心的
是距离的长度。如果两个估计量和, 远离而
却经常在的附近，那么我们比较喜欢使用来估计。我
们也可以考虑用所有可能随机误差的绝对值的平均值
来度量随机误差的大小，但是绝对值在数学上处理起来不方
便。因此，我们常用所有可能随机误差平方的平均值
来度量随机误差的大小,称为均方误差，记为
在是的无偏估计的前提下,实际上是的方差
即
?n? ?
?
? ?
? ?
1?n? 2?n? 1?n? 2?n?
2?n?
?nE ???
2?()nE ???
2?()nE ??? ?()nMSE ?
?n? ? 2?()nE ??? ?n?
?n?
?()nVar ? ?n?称为的标准误差
接着讨论前面的例子。在总数为 7的盒子中抽出 3个个体
组成样本,用作为参数的估计量，求估计量
的标准误差 ()Var y
1 2 3(,,)y y y y Y
()Var y 2()E y Y??
1 2 3
2
1 2 3
,,
11
[ ( ) 4 ]
7 3
3
y y y
y y y? ? ? ?
??
??
??
?
互不相等
23
( 1 )73S? ? ?
(具体运算见 (3.7)式 ) 0.89?
( ) 0, 9 4V a r y??
也就是说，使用来估计,在平均意义上的误差为
0.94。考虑到盒子中数值都是整数，标准误差 0.94不是很大。
如果从盒子中抽取样本容量为 5的样本，可得
y 4Y ?
()Var y 25( 1 ) 0, 2 7
75
S? ? ? ? ( ) 0,5 2V a r y ?
也就是说，标准误差随着 n 的增大将显著地减小了，这
是一条一般性的规律，基本上与总体数 N无关。
4y ? 2 7s ?
()Var y 2233( 1 ) ( 1 ) 1, 3 3
7 3 7 3
Ss? ? ? ? ? ? ?( ) 1,1 5V a r y ?
遗憾的是，在实际操作中，我们对估计量误差的测量并
不一定作得如此之好。因为在抽样调查中，盒子中每一个体
的指标值我们不能全部得知，故真正的参数也不可能得知。
可以知道的只是抽出的那组样本。因此，在实际操作中，我
们只是用样本的估计量来代替参数本身，并用样本方差来
代替总体方差,从而估计出估计量的方差和标准误差。比
如：若抽得样本（ 2,3,7），则
2S
2s
比起真正的标准误差 0.94来，近似标准误差还不至于太令人
失望。令人安慰的是，适当加大样本容量 n, 我们将做得更
好。
前面讨论的主要是无偏估计的情况。对于有偏估计来说
在一定的条件下，也有类似的结果。
设是的有偏估计，即。称为
的偏倚，记为。此时,的均方误
差为
n?? ? 0)
?( ?? ?? nE )?( ?? ?nE
n?? )?()?( ??? ?? nn EB ia s n??
22 )?()?()?()?( nnnn B i a sV a rEM S E ????? ????
当是的渐近无偏估计，并且上式右端第二项是比
更高阶的无穷小，则仍可使用的方差和均方
误差来近似地度量随机误差的大小。也就是说：当 n
适当大后，如果第二项比起来是小得可以忽略
不计的量，那么可以用均方误差 MSE近似地取代方差。
n??
?
nVar?? n?? nVar??
nVar??
2]?[ nBias?
nVar??
nVar??
4、正态曲线的应用与置信区间
如果随机变量的概率密度函数为
)(
2
1)( 2
2
2
)(
???????
??
xexf
x
?
?
??
当时，该曲线称为标准正态曲线，其概率密度为10 ?? ??,
)(
2
1)( 2
2
???????
?
xex
x
?
?
分布函数为
dxet
xt
2
2
2
1)( ?
???
??
?
则称该随机变量服从参数为的正态分布。记为
其中是随机变量的期望（平均值）,为随机变量的方
差,为随机变量的标准差。
2??，
? 2?
?
),( 2??N
分布函数给出了标准正态随机变量小于实数 t 的概率。
一个随机变量的变化规律用正泰曲线来描述，称该随机变量
服从正态分布，记作,),( 2??N
一个随机变量的变化如果受到许多因素的共同影响，但
没有一个或数个因素起主导作用，那么我们认为这个变量服
从正态分布。这个事实是由中心极限定理严格论证了的。一
般地，当这些变量所来自的母体具有非零有限方差,而
时，成立：
2?
??n
)()( ttEXXnP ??
?
?
?
?
?
?
??
?
也就是说，当 n 很大时,的分布可以近似地
用代替。这就是在实际中我们把样本平均数归结为它具
有标准正态分布的原因。
?
)( EXXn ?
)(t?
在抽样调查中，情况稍有不同，但结论类似。主要原因
是抽样调查中总体是有限总体，大多数抽样方式是随机无放
回，因而样本的抽取不满足独立同分布，不能直接应用上述
中心极限定理。然而，当 N(总体总数 )相当大，抽样样本容量
n 相对较小时，随机有放回与随机无放回常有相类同的概率
习性。二十世纪六七十年代，一些概率统计工作者，如 Hajek
等人，对有限总体无放回抽样的样本平均数进行了研究，得
到如下与独立同分布变量相同的结论：
定理 2.1：设有限总体单元为,从中随机无放
回抽取 n 个单元，记为,它们的平均数记为
，总体平均数记作,方差记为,则当
时，成立：
NYYY,,,21 ?
nyyy,,,21 ?
y Y 2S,??N
????? nNn,
)(
)(11 2
1
tt
S
Yy
Nn
P ??
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
上述定理告诉我们，当 N,n,N－ n相当大时，可将
的分布近似地用看作标准正态分布。
S
Yy
Nn
)(11 2
1
?
?
?
??
?
? ? ?
由于 1/N比 1/n小的多，将 1/N忽略,代替 S，上式和前式即
为一致。
?
在抽样调查理论中，样本平均数的近似正态性的重
要作用之一，就是给出待估参数和的置信区间。
y
Y ?
?
N
i
iY
1
前面讲了总体平均数的估计以及标准误差Y y
S
Nnn
S
N
nyV a r 2
1
2 11
1)( ?
?
?
?
?
? ??
?
?
?
?
?
? ??
由此可以构造一个区间，用代替,得下面区间：
s
Nn
yYs
Nn
y
2
1
2
1
1111
?
?
??
?
? ?????
?
??
?
? ??
2s 2S
由于是未知参数，是某一固定值。由于和是随机样本
的函数，所以该区间是一个随机区间。它可能覆盖,也可
能没有覆盖。
yY s
Y
Y
68.01
11 2
1
?
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
S
Yy
Nn
P
由
可知，上述区间覆盖这一随机事件的概率为 68%，称此区
间为待估参数的置信度为 68%的置信区间。其含义为如果
我们做了 100次抽样调查，每次得到一个这样的区间，在这些
区间中大约有 68个覆盖了。
Y
Y
Y
95.02
11 2
1
?
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
S
Yy
Nn
P
由
s
Nn
yYs
Nn
y
2
1
2
1
112112
?
?
??
?
? ?????
?
??
?
? ??
可得的置信水平为 95%的置信区间：Y
9 9 7.03
11 2
1
?
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
S
Yy
Nn
P
由
s
Nn
yYs
Nn
y
2
1
2
1
113113
?
?
??
?
? ?????
?
??
?
? ??
可得的置信水平为 99.7%的置信区间：Y
?? ??
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
1
11 2
1
k
S
Yy
Nn
P
一般地，由
s
Nn
kyYs
Nn
ky
2
1
2
1
1111
?
?
??
?
? ?????
?
??
?
? ??
??
可得的置信水平为的置信区间：Y ??1
?k
可查显著性水平为的标准正态分布表获得。?
美中不足的是置信水平提高了，但是置信区间的宽度却
加大了。在实际操作中只能是选择适当的置信水平，或者加
大样本容量 n 来弥补。比如，在上海市 1994年人口变动抽样
调查中，常住人口总量 95%置信水平的置信区间估计为：
1308.18 38.59万，而估计的和实际登记的户籍人口总数为?
1289万，后一个数字是很精确的。但是，常住人口总量的置
信区间下界为 1308.18— 38.59=1269.59万，比户籍人口数小了
近 20万人。众所周知，人口总量应该比户籍人口总量大，显
然，这里置信水平 95%过大了，选为 90%就可以了。
例 2.1 某大学有 25000名注册学生。某学期进行了一项调查以
估计常住在学校的学生的百分数。 1个月内有 20天以上住在学
校者为常住。抽取了一个 400名学生的简单随机样本，结果是
317名学生常住学校。试估计该学期该大学常住学校的学生的
百分比，并求估计的标准误差以及 68%的置信区间。
前面我们说过，比例的估计只是平均数估计的特例，只
要引进 0— 1指标即可。此时总体比例数 P=,样本比例数
p=,总体方差和样本方差分别为
Y
y
)1(12 PPN NS ??? )1(1
2 pp
n
ns ?
??
解,样本百分比为
%79%1 0 04 0 03 1 7 ??
它是总体百分比的估计
估计的标准误差
s
Nn
pV a r
2
1
11)(
?
?
??
?
? ??
%)791(%79
3 9 9
4 0 0
2 5 0 0 0
1
4 0 0
1 2
1
?????
?
??
?
? ??
%02.2?
置信水平为 68%的置信区间,%02.27 9 % ?
即约有的学生常住学校%02.27 9 % ?
本章习题解答
习题 2.3
冰箱,N=25000 n=500
358.0500179 ??p
为拥有冰箱比例的估计
样本方差
2 3 0 2 9 6 5 9 3.0)1(15 0 05 0 02 ???? pps
估计的标准误差为
s
Nn
pV a r
2
1
11)(
?
?
??
?
? ??
0 1 9 2.04 7 9 8 9 2 2 7 2.004.0 ???
置信水平为 95％的置信区间为 )(2 pV a rp ??
)3 9 6 4.0,3 1 9 6.0(0 1 9 2.023 5 8.0 ????
电视机,N=25000 n=500
996.0500498 ??p
为拥有电视机比例的估计
样本方差
0 0 3 9 9 1 9 8 3.0)1(15 0 05 0 02 ???? pps
估计的标准误差为
s
Nn
pV a r
2
1
11)(
?
?
??
?
? ??
000010088.0063182141.004.0 ???
置信水平为 95％的置信区间为 )(2 pV a rp ??
)999602.0995798.0(000010088.02996.0,????

课件简介

课件名称：	抽样调查理论与方法
课件分类：	统计
课件类型：	电子教案
文件大小：	4.45MB
下载次数：	4
评论次数：	3
用户评分：	8

用户列表