第二章 抽样调查基本原理
第一节 有关基本概念
第二节 样本统计量的抽样分布
第三节 抽样误差
第四节 抽样估计第一节 有关基本概念
一、总体
总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。
组成总体的每个个体叫做单位。
在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元,
不论总体是否有限,总体中的抽样单元数一定是有限的,而且是已知的,因此说抽样调查的总体总是有限的。
总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有:
总体总和 Y
总体均值
总体比率 R
总体比例 P
Y
二、样本
样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个 n维随机变量,属样本空间;抽样后,样本是一个 n
元数组,是样本空间的一个点。
影响样本代表性的因素有以下几个方面:
(1)总体标志值分布的离散程度。
(2)抽样单元数的多少 (或称样本容量的大小 )。
(3)抽样方法。
一般将反映样本数量特征的综合指标称之为统计量。统计量是 n元样本的一个实值函数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:
样本总和 y
样本均值
样本比率 r
样本比例 p
y
三、必要样本容量和样本可能数目
样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小 。
样本可能数目则是在容量为 N的总体中抽取容量为 n的样本时,所有可能被抽中的不同样本的个数。用 A表示。
当 N和 n一定时,A的多少与抽样方法有关,其计算方法列表如下:
nNA? )!(
!
nN
NPA n
N
n nNCA 1 )!(! ! nNn NCA nN
抽样方法 放回抽样 不放回抽样考虑顺序不考虑顺序
四、抽样框
抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。
编制抽样框是一个实际的、重要的问题,
因此必须要认真对待。
抽样框可以是一份清单 (名单抽样框 )、
一张地图 (区域抽样框 )。
常见的抽样框问题可以概括为四种基本类型:
(1)缺失一些元素,即抽样框涵盖不完全;
(2)多个元素对应一个号码;
(3)空白 (一些号码没有与之对应的元素 )
或存在异类元素;
(4)重复号码,即一个元素对应多个号码。
返回第二节 样本统计量的抽样分布
一、正态分布
如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高斯分布、常态分布。服从正态分布的总体称为正态总体。
如果一个随机变量 X服从正态分布,则其分布的密度函数 (分布曲线方程 )为:
2)(
2
1
2
1)(

x
exf
当 μ=0,σ2=1时,称该分布为标准正态分布。标准正态分布的密度函数为
2
2
1
2
1)( xexf

任何正态分布,它的样本落在任意区间
(a,b)内的概率等于直线 x=a,x=b,横坐标和曲线 f(x)所夹的面积 (可由正态分布概率积分表查得 )。经计算,正态总体的样本落在:
(-σ,+σ)概率是 68.27%;
(-2σ,+2σ)概率是 95.45%;
(-3σ,+3σ)概率是 99.73%;
(-1.96σ,+1.96σ)概率是 95%;
二、抽样分布
抽样分布是根据所有可能样本计算出来的某一统计量的数值分布。
抽样分布有极限分布和精确分布两类。
极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,
它是正态分布的导出分布,包括有 t分布、
F分布和 分布等形式。 χ2
一般地,可以证明如果总体服从正态分布,且总体均值和方差均为已知,即
Y~ N(μ,σ2)
则不论样本量大小如何,样本均值均围绕总体均值而服从正态分布,并且其抽样分布的方差等于总体方差的 n分之一,即
~ N(μ,σ2/n)y
而对于非正态总体,若均值 μ和 σ2有限,则根据中心极限定理,当样本量 n充分大时,样本均值仍然围绕着总体均值而近似地服从正态分布,即
y ~ N(μ,σ
2/n)
(一 )样本统计量的极限分布例:总体 N=5,Y={ 40,50,60,70,80},则其次数分布图为
0
0.5
1
1.5
0 20 40 60 80 100
若取 n=2,用放回抽样,可抽 25个简单随机样本,
整理后,即可得出关于样本均值
y
的次数分布情况为:
40 45 50 55 60 65 70 75 80
f 1 2 3 4 5 4 3 2 1
用图形表示,则为:
0
1
2
3
4
5
6
0 20 40 60 80 100
如果总体容量较大,则当样本容量逐步扩大时,样本平均数的分布趋于正态分布的趋势更加明显。
(二 )样本统计量的精确分布
1,χ2分布设随机变量 Yi~ N(0,1)(i=1,2,…,n),且相互独立,则
Y=∑Y2i服从自由度为 n的 χ2分布,记作 Y~ χ2(n)。
χ2分布的概率密度函数为

0,
)
2
(2
1
0,0
)( 2
1
2
2
yey
n
y
yf
yn
n
主要性质有:① f(y)恒为正;② χ2分布呈右偏形态;
③ χ2分布随 n的不断增大而逐渐趋于正态分布。
χ2分布 χ2(n)的数学期望和方差分别为
EY=n,DY=2n.
2,t分布若 X~ N(0,1),Y~ χ2(n),且 X与 Y相互独立,则称随机变量
nY
XT
/?
服从自由度为 n的 t分布,记作,T~ t(n)。
推论:若 X~ N(μ,σ2),σ2未知,则
nS
XT
/

服从自由度为 n-1的 t分布,记作,T~ t(n-1)
t分布 t(n)的概率密度函数为
2
12
)1(
)
2
(
)
2
1(
)(

n
n
t
nn
n
tf
t分布具有如下性质:
① t分布对称于纵轴,与 N(0,1)相似;
②在 n< 30(小样本 )时,t分布的方差大于 N(0,1)的方差;
③在 n≥30(大样本 )时,t分布随 n的增大而趋于 N(0,1)。
t分布 t(n)的数学期望与方差分别为
ET=0,DT=n/(n-2).(n> 2)
若 X~ χ2(n1),Y~ χ2(n2),且 X与 Y相互独立,则称随机变量
3,F分布
1
2
2
1
/
/
n
n
Y
X
nY
nXF
服从第一自由度为 n1,第二自由度为 n2的 F分布,
记作,F~ F(n1,n2)。 其概率密度函数为

0,)1())((
)
2
()
2
(
)
2
(
0,0
)(
2
2
1
1
2
2
1
2
1
21
21
211
xx
n
n
x
n
n
n
n
nn
nn
x
xf
nnn
F分布的主要性质有:
① F分布呈右偏态;
② f(x)恒为正;
③ 在
2
2
2
2
1
1
0

n
n
n
nF
④ 随 n1,n2的不断增大,F分布的右偏程度逐渐减弱,但不会趋向正态;
⑤具有倒数性质,即若 X~ F(n1,n2),则 1/X~ F(n1,n2);
⑥若 t~ t(n),则 t2(n)~ F(1,n)。
处取最大值 (n1> 2,f0< 1);
其数学期望和方差分别为
)4(.
)4()2(
)2(2,
2 22221
21
2
2
2
2?

n
nnn
nnnDX
n
nEX
返回第三节 抽样误差一、抽样调查中的误差来源误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。
抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。
在抽样调查中抽样误差是不可避免的。但同非抽样误差不同的是,抽样误差可以计算,并且可以被控制在任意小的范围内。
影响抽样误差的因素
1.抽样误差通常会随样本量的大小而增减。
2.所研究现象总体变异程度的大小。
3.抽样的方式方法。
非抽样误差不是由于抽样引起的。它又包括:调查误差;
无回答误差;抽样框误差;登记性误差。
同抽样误差相反,非抽样误差是随着样本量的增加而增大的。由于抽样调查的访问和资料整理都比普查更便于进行,因此非抽样误差也远远小于普查。有时,普查中的非抽样误差甚至大于抽样调查中抽样误差与非抽样误差的总和。
二、抽样误差的计算抽样误差的计算,是建立在误差分布理论基础上,从统计平均意义角度来考虑的。
抽样误差用所有可能的实际误差的均方误差表示
MSE( )=E( -θ)
2
=E[ -E( )] 2+[ E( )-θ] 2
式中第一项是估计量 的方差,记作 V( )。
式中第二项是估计量 的偏倚 B( )的平方。
无偏估计时,的方差就等于它的均方误差。

说明:
①上面所给出的估计量方差公式实际中当 σ2未知时,一般用样本方差 s2代替以对
② 有偏的估计并非都是不可用的,有时有偏估计量在某些方面反而比无偏估计量更好。有研究认为,在实践中当偏倚小于标准误的十分之一时,偏倚对估计量准确度的影响可以忽略不计。
仍然属于一个理论公式,
是依据调查变量的总体方差 σ2进行计算的,
估计量的方差做出估计。
返回第四节 抽样估计一、抽样估计的特点第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理。
第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。
第三,抽样估计的结论存在着一定程度的抽样误差。
二、抽样估计的方法抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估计、比估计和回归估计等三种方法。
简单估计是单纯依靠样本调查变量的资料估计总体参数,其估计结果称为简单估计量;比估计和回归估计是同时依据样本调查变量以及已知的有关辅助变量的资料来对总体参数做出估计,其结果分别称为比估计量和回归估计量。
如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估计。
三、置信区间一般地说,若估计量是无偏的,且呈正态分布,则参数 θ的置信度当调查变量的总体方差 σ2已知时,上述置信区间可表示为为 1-α的置信区间可以写成
))?(?),?(?( KSKS
))?(?),?(?( 22 SZSZ
当调查变量的总体方差 σ2未知时,则用相应的样本方差 s2代替。然而,这时有可能会使误差产生一个增量,特别是当样本较小时,更容易影响估计的精度。
因此,为了保持 1-α的置信度,就应该适当加宽置信区间,即用较大的 tα/2值来代替 Zα/2。此时,置信区间就可以表示成
))?(),?((
22
StSt
四、估计量的优良标准
1、无偏性
2、一致性
3、有效性