第 7章 抽样和抽样分布基本概念
总体与样本名 称 样 本 总 体定义 从总体中抽出的部分单位 研究对象的全部单位特征 统计量 参数符号样本容量样本平均数样本比率样本方差样本标准差总体容量总体平均数总体比率总体方差总体标准差2
~
s
s
p
x
n
2
P
N
非抽样误差登记性误差偏 差抽样误差总体内部差异度样 本容量抽 样 方 法
随机抽样与判断抽样随机原则,机会均等原则(抽样时避免主观倾向,以保证样本的代表性)
非抽样误差和抽样误差
纯随机抽样(简单随机抽样)
对总体 不做任何分类或排序,完全按随机原则抽样。
适用范围,总体规模不大,内部差异较小。
例:一个班组有 A,B,C,D,E五个工人,随机抽取 2个工人的日工资数作为了解整个班组平均工资水平的样本。
可能的结果是重置抽样,25个样本不重置抽样,20个样本随机抽样设计样本号 A B C D E
A
B
C
D
E
等距抽样(机械抽样或系统抽样)
将总体 按某一标志值顺序排列,然后按一定间隔抽取样本。
间隔距离; 起点的选择 半距中点取样对称等距取样随机取样例:从某企业 5000名职工中抽取 100人进行家庭收入水平调查。
样本的距离 =
起点的选择:按姓氏排序,在第一个间隔中随机选取。
knN?
排序标志无关标志有关标志
501005000?
类型抽样(分层抽样)
将总体 按某个标志分组,然后从各组按随机原则或其他方式抽样。确定各组样本的方法:
例:某项粮食播种面积 20000亩,其中有平原和山区两种地形。以类型抽样的方法了解平均粮食产量。
总体 N
比例抽样适宜抽样
N1
N2
N3
n1
n2
n3
nNNn i1
nNNn
ii
ii1
地形 全部面积( Ni) 样本面积( ni)
平原山区
14000
6000
合计 20000
整群抽样将总体 按某个标志分为多个群,随机抽取若干群,对被抽中的群进行全面调查。
优缺点:调查方便,但抽样误差较大。
例:从某县 100个村中抽出 10个村,进行全面调查,就可以大致了解农 村家庭副业发展情况。
总群数 R=13
C D
G K
样本数 r=4 样本容量
n=nc+nd+ng+nk
A D
C F G
H
I
J
K
L M
B
E
多阶段抽样特点,多个阶段、多种方法 综合抽样例:对某山区的林采蓄积量作抽样调查。将总体 50块面积相等的地划为 10个区,每个区包括 5个地块。采用两阶段抽样,先从 10个区选中 30%,再从选中的区域中抽取 60%的地块组成样本进行调查。
抽样技术
放回抽样,抽样总体不变不放回抽样,抽样总体逐次减少抽样分布样本统计量的概率分布(理论分布)。
样本均值的抽样分布数字特征抽样分布数学期望方 差
)( XE
)1( 2222 N nNnn xx
1 当总体服从正态分布时,从该总体中取样所得到的样本均值仍然服从正态分布。
2 从非正态总中抽取的样本,只要容量足够大,根据中心极限定理可知,样本均值的分布也趋向正态分布。
一般认为样本容量足够大的标准为,n大于等于 30
),(~ 2NX
)(2 1f ( x ) 2
2
2
)( xe x?

正态分布
)(xf
x
)(xf
标准正态分布 )1,0(~ -X Z NZX
标准化:对
x
0
)(xf
)(xf
)(21( x) 2
2
xe x
两个样本均值之差的抽样分布两个正态总体两个非正态总体
)~X X
X - X ),,,( ),,,(
2
2
2
1
2
1
,2121
212
2
2221
2
111
nn
N
nXnX



的分布为则大样本)(
的分布为则
( )~X X
X - X ),,,( ),,,(
2
2
2
1
2
1
,2121
212
2
2221
2
111
nn
N
nXnX



样本比率的抽样分布当样本容量 n足够大并且 np和 n(1-p)都大于 5时,根据中心极限定理可知,样本比率的抽样分布 近似服从正态分布,其特征值为:
两个样本比率之差的抽样分布 (大样本)
从 2个总体中分别抽取容量为 n1和 n2的 2个独立随机样本,当样本容量足够大时 2个样本比率之差的抽样分布就近似正态分布,其特征值为:
)
1
( P)p~(
,p~
N
Np
2
~
2
~
11


N
nN
n
pq
n
pqE
n
n
PP 或则记
)
1
N
(
)1(
)
1
N
(
)1(
)1(
)1(
pp)p~p~(
2
22
2
22
1
11
1
112
p~p~
2
22
1
112
p~p~
2121
21
21



N
n
n
pp
N
n
n
pp
n
pp
n
pp
E