§ 7 若干数学准备
抽样推断既然必须处理收集来的数据,因此数学知识是
必不可少的。下面仅就抽样调查中一些最基本的常用数学知
识和概念以直观简洁的方式做一些介绍。
1、盒子模型
一般抽样调查面临的总体只有有限多个初级单元。从总
体中抽样,就相当于从一个盒子里摸取若干张票,盒子里的
票数相当于有限总体的单元个数,票上记载着反映该单元特
征的指标的值。设总体有 N个单元,各指标值为
则盒子如图 2- 1所示:
NYYY,,,21 ?
NYYY,,,21 ?
图 2- 1
该盒中票的平均数为:
)(1 21 NYYYNY ???? ?
即总体平均数,它表示票上指标的中心。
另一个重要的总体参数是盒中票的指标的离散程度,用指标
值关于中心的距离的平方和的平均数来表示:
2
1
2 )(1 YY
N i
N
i
?? ?
?
?
这实际上是总体的方差;但大部分情况采用:
2
1
2 )(
1
1 YY
NS i
N
i
??? ?
?
如果我们只关心总体中具有某些特定类型的集合占整个
总体的比例,那么只需稍加处理,引入 0- 1指标,总体比例
的问题立刻转化为总体平均数的一个特例。
只要将盒子中的票子分为两类,我们感兴趣的一类全标
上 1,其余的都标上 0。于是盒子可用图 2- 2表示:
图 2- 2
1 0个
1N 个1NN ?
则盒子中票子指标的平均数为:
N
NY
N
Y i
N
i
1
1
1 ?? ?
?
正好是我们关心的那类个体占总体的比例。因此,凡对总体
平均数有的结果,总体比例也有相应的结果。
此时,盒子的方差化为:
2
1
2 )(1 YY
N i
N
i
?? ?
?
?
}))(()({1 211211 NNNNN NNNN ????
N
NN
N
N 11 ???
)0()1( 所占比例总体中所占比例总体中 ??
常采用的方差表示为:
22
1 ??? N
NS
N
NN
N
N
N
N 11
1
???
??
从盒子中作随机抽取常常有两种不同方式:随机有放回
抽取和随机无放回抽取。从直观上看,随机有放回方式存在
着一张票子被抽中两次或两次以上的可能性,而随机无放回
方式则不存在这种可能。
在实际操作中,人们不太可能心甘情愿地花费两倍以上
的费用去访问同一个单元。因此,随机无放回通常比随机有
放回应“有效”一些,这一点将在第三章的讨论中在理论上加
以肯定。但是,当盒子中的票数相当多,而抽取的票数相对
较少时,有许多事件的概率习性对于有放回或无放回两种情
况几乎差不多,因而有时候我们常从随机有放回这一最简单
的形式入手讨论问题,而将有关的结果近似地套到随机无放
回的情形。
这里讨论的盒子模型是对简单随机抽样而言的,至于分
层、分阶段等其它情况无非是大盒子里放小盒子等。
2、随机误差与无偏估计量
先讨论一个简单的具体例子。设有一个容量为 7的总体
由下面盒子给出,如图 2- 3所示:
图 2- 3
1 2 3 4 5 6 7
总体平均数和方差为:
4
7
1 7
1
?? ?
?
i
i
YY 67.4)(17 1 2
7
1
2 ??
?? ?? YYS ii
标准差 16.22 ?? SS
此时,盒子中指标值以及总体的参数 和 对于调查者
来说是未知的。调查者的任务就是从总体中抽出一个样本,
构造样本估计量,来推断总体平均数 和方差 。
Y
Y
2S
2S
设样本容量 n=3,使用样本 的样本均值和方

来估计总体的平均值 和方差 。
),,( 321 yyy
i
i
yy ?
?
?
3
13
1 23
1
2 )(
13
1 yys
i
i
??? ?
?
Y 2S
考虑不放回简单随机抽样,由于抽样是随机的,7个个体中
的任何 3个都可能入选样本。所有可能的样本数有
3
73
7 C?
???
?
???
?
此时,每一个样本被抽中的概率都相等且为
???
?
???
?
3
71
如抽中样本( 2,3,6),则
67.3)632(31 ????y
33.4])67.36()67.33()67.32[(13 1 2222 ????????s
用它们来估计总体的平均数和方差,误差如下:
对平均数有随机误差 33.0467.3 ????? Yy
对方差有随机误差 34.067.433.422 ????? Ss
由于样本是随机的,误差也将随着样本的不同而发生
变化。如果我们的运气不佳,抽到样本( 1,2,3),此时
2)321(31 ????y
1])23()22()21[(13 1 2222 ????????s
随机误差分别为
242 ????? Yy 67.367.4122 ????? Ss
随机误差就大得许多。也就是说,用样本平均数和方差
来估计总体平均数和方差有时是很糟糕的。
为什么还要用样本平均数和方差来估计总体平均数和方差呢?
原因一,和 是样本平均数 和方差 的波动中心Y 2S y 2s
)(
3
7
1
之和所有可能的 y
??
?
?
??
?
?
? ??
??
?
?
??
?
?
?
互不相等
321,,
321 )(3
1
3
7
1
yyy
yyy
)7654321(
2
6
3
1
3
7
1
?????????
?
?
??
?
?
?
??
?
?
??
?
?
?
)7654321(42 6317 43 ????????? !! !! !!
换句话说,虽然估计量 和 会发生随机误差,随机误差
有正有负,但随机误差的平均值为 0。或者说,所有可能的
和 的平均值分别为 和 。
y 2s
y 2s 2SY
以前述例子为例:所有可能的 的平均值为y
Y????????? 4)7654321(71
类似:所有可能的 的平均值为2s
)(
3
7
1 2
之和所有可能的 s
??
?
?
??
?
?
? ? ?
??
?
?
??
?
?
?
?
互不相等
321,,
2
3
1
)(
2
1
3
7
1
yyy
i
i
yy
? ? ???
??
?
?
??
?
?
?
?
互不相等
321,,
22
3
1
])(3)([
2
1
3
7
1
yyy
i
i
YyYy
? ? ?
??
?
?
??
?
?
??
?
互不相等
321,,
2
3
1
)(
3
7
1
2
1
yyy
i
i
Yy ? ?
??
?
?
??
?
?
??
互不相等
321,,
2)(
3
7
1
2
3
yyy
Yy
2222
6
7
3
1
6
4
2
3
2
3 S?????? ???
原因二,随着样本容量 n 的增大(与总体容量 N相比仍可
能很小),与 以及 与 发生大的误差的可能性越
来越小,以至于可以忽略,而误差在 0 附近的可能性变得越
来越大,或者说某种平均意义下的误差越来越小。
Y 2Sy 2s
一般来说,基于抽样数据的统计量 —— 通常记为,在
前面的例子中是 和 —— 作为参数 的估计量,总是希望
能够较好地近似代表 。由于依据局部来估计总体避免不了
会发生误差,这个误差还是随机的,任何两次抽样所产生的
误差都不会相同,每次所产生的误差都是这个随机变量的一
次实现。
y 2s
n??
?
?
另外,待估参数又是未知的,我们也不可能知道抽样误
差到底等于多少。为了排除偶然因素,我们往往从平均意义
上来看抽样误差。这就是在数学上对随机变量取数学期望。
如果估计 的统计量 具有性质:,则称 为
的无偏估计。
? n?? ?? ?nE ? n??
?
前述例子就说明,YyE ? 22 SEs ?
即 和 分别是 和 的无偏估计。。y Y2s 2S
以上分析告诉我们,所谓无偏估计并非是说估计量与参
数之间就没有偏差,而是说估计量所有可能取值的平均值等
于参数。或者说估计量与参数的平均偏差为零。
数理统计告诉我们,并非所有的待估参数都存在无偏估
计。例如成功率为 p 的 n 次贝努里试验,其中成功的次数 x
服从二项分布,对于观察到的成功次数 x,可用 x/n 估计参
数 p,而且是无偏估计。但参数 1/p 不存在无偏估计。
其实,有偏估计不见得一定讨厌。虽然 是 的有偏
估计,即,但是随着样本容量 n 的增大,
n?? ?
?? ?nE ? ?? ?nE ?
并且 具有其它良好的性质。称具有这种性质的估计量为
渐近无偏估计量。抽样调查中的比估计量就是一种渐近无偏
估计量。在抽样调查理论中,有必要讨论有偏估计,这是因
为:
n??
( 1)对于某些常见的参数,我们经常采用一些既合理又方
便的估计量。这些估计量在实际操作中能为几乎所有的人
接受,而它们却不是无偏估计量。
( 2)既使我们采用的估计量是概率意义上的无偏估计量,
但在实际抽样中却变成了有偏估计,这是由抽样本身造成的
例如:在抽样中常常发生不回答现象,这些不回答的人一般
对所调查的问题带有一定的倾向性,根据回答者提供的资料
构造的理论上的无偏估计实质上并非整个总体的参数的无偏
估计。
3、随机误差的度量
对无偏估计,我们已经知道估计量 与参数 的差
的所有可能取值的平均值等于 0,即 。用这个平
均的概念是无法度量估计量的偏差的。
?n? ? ?n???
?( ) 0nE ????
?()nM SE ? ?()nVar ??2?()nE ????
以一元参数为例,由于随机性,可以在 的左边,也
可以在 的右边,而在前述平均意义下,这些正负偏差将互
相抵消。随机误差的正负号是没有多大意义的,实际关心的
是 距离 的长度。如果两个估计量 和, 远离 而
却经常在 的附近,那么我们比较喜欢使用 来估计 。我
们也可以考虑用所有可能随机误差的绝对值的平均值
来度量随机误差的大小,但是绝对值在数学上处理起来不方
便。因此,我们常用所有可能随机误差平方的平均值
来度量随机误差的大小,称为均方误差,记为
在 是 的无偏估计的前提下,实际上是 的方差

?n? ?
?
? ?
? ?
1?n? 2?n? 1?n? 2?n?
2?n?
?nE ???
2?()nE ???
2?()nE ??? ?()nMSE ?
?n? ? 2?()nE ??? ?n?
?n?
?()nVar ? ?n?称为 的标准误差
接着讨论前面的例子。在总数为 7的盒子中抽出 3个个体
组成样本,用 作为参数 的估计量,求估计量
的标准误差 ()Var y
1 2 3(,,)y y y y Y
()Var y 2()E y Y??
1 2 3
2
1 2 3
,,
11
[ ( ) 4 ]
7 3
3
y y y
y y y? ? ? ?
??
??
??
?
互不相等
23
( 1 )73S? ? ?
(具体运算见 (3.7)式 ) 0.89?
( ) 0, 9 4V a r y??
也就是说,使用 来估计,在平均意义上的误差为
0.94。 考虑到盒子中数值都是整数,标准误差 0.94不是很大。
如果从盒子中抽取样本容量为 5的样本,可得
y 4Y ?
()Var y 25( 1 ) 0, 2 7
75
S? ? ? ? ( ) 0,5 2V a r y ?
也就是说,标准误差随着 n 的增大将显著地减小了,这
是一条一般性的规律,基本上与总体数 N无关。
4y ? 2 7s ?
()Var y 2233( 1 ) ( 1 ) 1, 3 3
7 3 7 3
Ss? ? ? ? ? ? ?( ) 1,1 5V a r y ?
遗憾的是,在实际操作中,我们对估计量误差的测量并
不一定作得如此之好。因为在抽样调查中,盒子中每一个体
的指标值我们不能全部得知,故真正的参数也不可能得知。
可以知道的只是抽出的那组样本。因此,在实际操作中,我
们只是用样本的估计量来代替参数本身,并用样本方差 来
代替总体方差,从而估计出估计量的方差和标准误差。比
如:若抽得样本( 2,3,7),则
2S
2s
比起真正的标准误差 0.94来,近似标准误差还不至于太令人
失望。令人安慰的是,适当加大样本容量 n, 我们将做得更
好。
前面讨论的主要是无偏估计的情况。对于有偏估计来说
在一定的条件下,也有类似的结果。
设 是 的有偏估计,即 。称 为
的偏倚,记为 。此时,的均方误
差为
n?? ? 0)
?( ?? ?? nE )?( ?? ?nE
n?? )?()?( ??? ?? nn EB ia s n??
22 )?()?()?()?( nnnn B i a sV a rEM S E ????? ????
当 是 的渐近无偏估计,并且上式右端第二项是比
更高阶的无穷小,则仍可使用 的方差 和均方
误差 来近似地度量随机误差的大小。也就是说:当 n
适当大后,如果第二项 比起 来是小得可以忽略
不计的量,那么可以用均方误差 MSE近似地取代方差 。
n??
?
nVar?? n?? nVar??
nVar??
2]?[ nBias?
nVar??
nVar??
4、正态曲线的应用与置信区间
如果随机变量的概率密度函数为
)(
2
1)( 2
2
2
)(
???????
??
xexf
x
?
?
??
当 时,该曲线称为标准正态曲线,其概率密度为10 ?? ??,
)(
2
1)( 2
2
???????
?
xex
x
?
?
分布函数为
dxet
xt
2
2
2
1)( ?
???
??
?
则称该随机变量服从参数为 的正态分布。记为
其中 是随机变量的期望(平均值),为随机变量的方
差,为随机变量的标准差。
2??,
? 2?
?
),( 2??N
分布函数给出了标准正态随机变量小于实数 t 的概率。
一个随机变量的变化规律用正泰曲线来描述,称该随机变量
服从正态分布,记作,),( 2??N
一个随机变量的变化如果受到许多因素的共同影响,但
没有一个或数个因素起主导作用,那么我们认为这个变量服
从正态分布。这个事实是由中心极限定理严格论证了的。一
般地,当这些变量所来自的母体具有非零有限方差,而
时,成立:
2?
??n
)()( ttEXXnP ??
?
?
?
?
?
?
??
?
也就是说,当 n 很大时,的分布可以近似地
用 代替。这就是在实际中我们把样本平均数归结为它具
有标准正态分布的原因。
?
)( EXXn ?
)(t?
在抽样调查中,情况稍有不同,但结论类似。主要原因
是抽样调查中总体是有限总体,大多数抽样方式是随机无放
回,因而样本的抽取不满足独立同分布,不能直接应用上述
中心极限定理。然而,当 N(总体总数 )相当大,抽样样本容量
n 相对较小时,随机有放回与随机无放回常有相类同的概率
习性。二十世纪六七十年代,一些概率统计工作者,如 Hajek
等人,对有限总体无放回抽样的样本平均数进行了研究,得
到如下与独立同分布变量相同的结论:
定理 2.1:设有限总体单元为,从中随机无放
回抽取 n 个单元,记为,它们的平均数记为
,总体平均数记作,方差记为,则当
时,成立:
NYYY,,,21 ?
nyyy,,,21 ?
y Y 2S,??N
????? nNn,
)(
)(11 2
1
tt
S
Yy
Nn
P ??
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
上述定理告诉我们,当 N,n,N- n相当大时,可将
的分布近似地用看作标准正态分布。
S
Yy
Nn
)(11 2
1
?
?
?
??
?
? ? ?
由于 1/N比 1/n小的多,将 1/N忽略,代替 S,上式和前式即
为一致。
?
在抽样调查理论中,样本平均数 的近似正态性的重
要作用之一,就是给出待估参数 和 的置信区间。
y
Y ?
?
N
i
iY
1
前面讲了总体平均数 的估计 以及标准误差Y y
S
Nnn
S
N
nyV a r 2
1
2 11
1)( ?
?
?
?
?
? ??
?
?
?
?
?
? ??
由此可以构造一个区间,用 代替,得下面区间:
s
Nn
yYs
Nn
y
2
1
2
1
1111
?
?
??
?
? ?????
?
??
?
? ??
2s 2S
由于 是未知参数,是某一固定值。由于 和 是随机样本
的函数,所以该区间是一个随机区间。它可能覆盖,也可
能没有覆盖 。
yY s
Y
Y
68.01
11 2
1
?
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
S
Yy
Nn
P

可知,上述区间覆盖 这一随机事件的概率为 68%,称此区
间为待估参数 的置信度为 68%的置信区间。其含义为如果
我们做了 100次抽样调查,每次得到一个这样的区间,在这些
区间中大约有 68个覆盖了 。
Y
Y
Y
95.02
11 2
1
?
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
S
Yy
Nn
P

s
Nn
yYs
Nn
y
2
1
2
1
112112
?
?
??
?
? ?????
?
??
?
? ??
可得 的置信水平为 95%的置信区间:Y
9 9 7.03
11 2
1
?
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
S
Yy
Nn
P

s
Nn
yYs
Nn
y
2
1
2
1
113113
?
?
??
?
? ?????
?
??
?
? ??
可得 的置信水平为 99.7%的置信区间:Y
?? ??
??
?
?
?
??
?
?
?
?
?
?
?
?
?
?
? ?
?
1
11 2
1
k
S
Yy
Nn
P
一般地,由
s
Nn
kyYs
Nn
ky
2
1
2
1
1111
?
?
??
?
? ?????
?
??
?
? ??
??
可得 的置信水平为 的置信区间:Y ??1
?k
可查显著性水平为 的标准正态分布表获得。?
美中不足的是置信水平提高了,但是置信区间的宽度却
加大了。在实际操作中只能是选择适当的置信水平,或者加
大样本容量 n 来弥补。比如,在上海市 1994年人口变动抽样
调查中,常住人口总量 95%置信水平的置信区间估计为:
1308.18 38.59万,而估计的和实际登记的户籍人口总数为?
1289万,后一个数字是很精确的。但是,常住人口总量的置
信区间下界为 1308.18— 38.59=1269.59万,比户籍人口数小了
近 20万人。众所周知,人口总量应该比户籍人口总量大,显
然,这里置信水平 95%过大了,选为 90%就可以了。
例 2.1 某大学有 25000名注册学生。某学期进行了一项调查以
估计常住在学校的学生的百分数。 1个月内有 20天以上住在学
校者为常住。抽取了一个 400名学生的简单随机样本,结果是
317名学生常住学校。试估计该学期该大学常住学校的学生的
百分比,并求估计的标准误差以及 68%的置信区间。
前面我们说过,比例的估计只是平均数估计的特例,只
要引进 0— 1指标即可。此时总体比例数 P=,样本比例数
p=,总体方差和样本方差分别为
Y
y
)1(12 PPN NS ??? )1(1
2 pp
n
ns ?
??
解,样本百分比为
%79%1 0 04 0 03 1 7 ??
它是总体百分比的估计
估计的标准误差
s
Nn
pV a r
2
1
11)(
?
?
??
?
? ??
%)791(%79
3 9 9
4 0 0
2 5 0 0 0
1
4 0 0
1 2
1
?????
?
??
?
? ??
%02.2?
置信水平为 68%的置信区间,%02.27 9 % ?
即约有 的学生常住学校%02.27 9 % ?
本章习题解答
习题 2.3
冰箱,N=25000 n=500
358.0500179 ??p
为拥有冰箱比例的估计
样本方差
2 3 0 2 9 6 5 9 3.0)1(15 0 05 0 02 ???? pps
估计的标准误差为
s
Nn
pV a r
2
1
11)(
?
?
??
?
? ??
0 1 9 2.04 7 9 8 9 2 2 7 2.004.0 ???
置信水平为 95%的置信区间为 )(2 pV a rp ??
)3 9 6 4.0,3 1 9 6.0(0 1 9 2.023 5 8.0 ????
电视机,N=25000 n=500
996.0500498 ??p
为拥有电视机比例的估计
样本方差
0 0 3 9 9 1 9 8 3.0)1(15 0 05 0 02 ???? pps
估计的标准误差为
s
Nn
pV a r
2
1
11)(
?
?
??
?
? ??
000010088.0063182141.004.0 ???
置信水平为 95%的置信区间为 )(2 pV a rp ??
)999602.0995798.0(000010088.02996.0,????