4-1
第四章 抽样分布与参数估计
? 第一节 频率、概率与概率分布
? 第二节 抽样分布
? 第三节 总体参数估计
? 第四节 抽样设计
4-2
第一节 频率、概率与概率分布
? 一、随机事件与概率
? (一)随机试验与事件
? 随机现象的特点是:在条件不变的情况下,一系列
的试验或观测会得到不同的结果,并且在试验或观
测前不能预见何种结果将出现。对随机现象的试验
或观测称为随机试验,它必须满足以下的性质:
? ( 1)每次试验的可能结果不是唯一的;
? ( 2)每次试验之前不能确定何种结果会出现;
? ( 3)试验可在相同条件下重复进行。
4-3
? 在随机试验中,可能出现也可能不出现的结
果,称之为随机事件,简称事件。试验的结
果可能是一个简单事件,也可能是一个复杂
事件。简单事件就是不可以再分解的事件,
又称为基本事件。复杂事件是由简单事件组
合而成的事件。基本事件还可称为样本点,
设试验有 n个基本事件,分别记为
(i=1,2,…, n)。集合 Ω={ω1,ω2,…,ωn} 称为
样本空间,Ω中的元素就是样本点。
i?
4-4
? 例:投掷一粒均匀的六面体骰子,出现的点
数有可能是 1,2,3,4,5,6共六种。这六
种结果是基本结果,不可以再分解成更简单
的结果了,所以 Ω={1,2,3,4,5,6}为该
试验的样本空间。“出现点数是奇数”这一
事件就不是简单事件,它是由基本事件 {1},
{3}和 {5}组合而成的。我们通常用大写字母 A,
B,C,… 来表示随机事件,例如,设 A表示
“出现点数是奇数”,则 A={1,3,5};设 B
表示“出现点数是偶数”,则 B={2,4,6}。
4-5
? (二)概率
? 1,概率的定义
? 概率就是指随机事件发生的可能性,或称为机率,
是对随机事件发生可能性的度量。 进行 n次重复试
验,随机事件 A发生的次数是 m次,发生的频率是
m/n,当试验的次数 n很大时,如果频率在某一数值
p附近摆动,而且随着试验次数 n的不断增加,频率
的摆动幅度越来越小,则称 p为事件 A发生的概率,
记为,P(A)=p。在古典概型场合,即基本事件发生的
概率都一样的场合,
? ? 样本点总数包含的样本点个数AnmAP ?? 样本点总数的有利场合数A?
4-6
? 例:设一个袋子中装有白球 2个,黑球 3个。 (1)
从中随机摸出 1只球,问刚好是白球的概率有
多大? (2) 从中随机摸出 2只球,一问 2只球
都是白球的概率有多大? 二问 2只球一白一黑
的概率有多大? 三问 2只球都是黑球的概率有
多大?
? 解,(1) 由于摸出的任何 1只球都形成一个基
本事件,所以样本点总数为 n=5。用 A表示摸
出的是白球事件,则 A由两个基本点组成,即
A={白球,白球 },有利场合数 m=2。因此,
刚好摸出白球的概率为 P(A)=m/n=2/5=0.4
4-7
? (2) 由于摸出 2只球才成一个基本事件,所以
样本点总数为 故
? P(A)=P(2只球都是白球 )=1/ =1/10
? P(B)=P(2只球一白一黑 )=2× 3/10=6/10
? P(C)=P(2只球都是黑球 )=3/10
? NOTE,P(A+B+C)=1
2
5C
2
5C
4-8
? 2,概率的基本性质
? 性质 1 1≥P(A)≥0。
? 性质 2 P(Ω)=1。
? 性质 3 若事件 A与事件 B互不相容,即 AB=Ф,
则 P(A∪ B)=P(A)+P(B)。
? 推论 1 不可能事件的概率为 0,即,P(Ф)=0。
? 推论 2 P( )=1-P(A),表示 A的对立事件,即
它们二者必有一事件发生但又不能同时发生。
A A
4-9
? 例:袋中装有 4只黑球和 1只白球,每次从袋中随机
地摸出 1只球,并换入 1只黑球。连续进行,问第三
次摸到黑球的概率是多少?
? 解, 记 A为“第三次摸到黑球”,则 为“第三次
摸到白球”。先计算 P( )。
? 由于袋中只有 1只白球,如果某一次摸到了白球,换
入了黑球,则袋中只有黑球了。所以相当于第一、
第二次都是摸到黑球,第三次摸到白球。注意这是
一种有放回的摸球,样本点总数为 53,有利场合数
是 42× 1。故:
P( )=,
? 所以
A
A
125
16
5
14
3
2
??
? ? ? ? 1251095 1411 32 ?????? APAP
A
4-10
? 3,事件的独立性
? 定义 对事件 A与 B,若 p(AB)=p(B)p(A),则称它们
是统计独立的,简称相互独立。
? 例:已知袋中有 6只红球,4只白球。从袋中有放回地
取两次球,每次都取 1球。设 表示第 i次取到红球。
那么,
? 因此,,也就是说,
B1,B2相互独立。从题目条件看,这一结论是显然的。
iB
12
63( ) ( )
1 0 5P B P B? ? ? 1221
1
36() 3100
() 3( ) 5
5
P B BP B B
PB? ? ?
1 2 2 1 1 1 2
33( ) ( ) ( ) ( ) ( )
55P B B P B B P B P B P B? ? ? ?
4-11
二、随机变量
? 随机变量 X是定义在样本空间 Ω={ω1,ω2,…,ωn} 上
的一个函数,这个函数的取值随试验的结果不同而
变化。这个函数还要求满足条件:对任意的实数 x,
X<x是随机事件。如果随机变量所有可能的取值是
有限的,或可排成一列的,这种随机变量称为离散
型随机变量;另一种情况是随机变量的取值范围是
一个区间或整个数轴,这种随机变量称为连续型随
机变量。
? 1,离散型随机变量的概率分布
? 设离散型随机变量 X的所有可能取值为 x1,x2,…,
xn,…,相应的概率为 p(x1),p(x2),…,p(xn),… 。用
表格统一表示出来是:
4-12
X x1 x2 … xn …
P p(x1) p(x2) … p(xn) …
? 这称为离散型随机变量 X的概率分布。
? 性质,(1) 0≤p(xi)≤1 (i=1,2,…) ;
? (2)
? 定义, 离散型随机变量 X的期望值为
?
? 性质:
? 其中 X1,X2都是随机变量,α,β是任意常数。
? ?? ?
i i
xp 1
? ? ? ????
I ii
xpxXE?
? ? ? ? ? ?2121 XEXEXXE ???? ???
4-13
? 定义, 离散型随机变量 X的方差为
? 方差的平方根 σ称为标准差。
? 方差 σ2或标准差 σ反映随机变量 X相对其期望
值的
? 离散程度,σ2或 σ越小,说明期望值的代表性
越好; σ2或 σ越大,说明期望值的代表性越差。
? 性质:对于任意的 α,D(αX)=α2 D(X) 成立
? ? ? ? ? ?? ?????
i
ii xpxXEXD
222 )( ???
4-14
? 贝努里试验 与二项分布
? 有时我们只对试验中某事件 A是否出现感兴趣,如
果 A发生,我们称“成功”,否则称“失败”。像
这样只有两种结果的试验称为贝努里试验。设 A出
现的概率为 p,我们独立地重复进行 n次贝努里试验,
称为 n重贝努里试验,以 Bk表示 n重贝努里试验中事件
A正好出现 k次这一事件,则
(k=0,1,2,…, n)
? 该分布称为二项分布 ( q= 1- p ).
? NOTE,
? ? knkknk qpCBp ??
1)()(
000
???? ???
?
?
??
n
k
nkn
n
k
kk
n
n
k
k qpqpCBP
4-15
? 2,连续型随机变量的概率分布
? 设 X是 R.V.,x 是一实数, 记
? F(x)=P(X<x)。该函数就是随机变量 X的分布
函数。分布函数的导数称为密度函数,记作
p(x )。
? 性质
? (1) p(x)≥0
? (2)
? (3)
? ?? ??
??
1d xxp
????
b
a
xxpbXap d)()( a b
x
P(a≤x<b)
4-16
? 定义, 连续型随机变量 X的期望值为
? 方差为
? 性质,
D(αX)=α2 D(X)
? ? ??? ?
??
xxxpXE d)(?
? ? ? ? ? ??
?
??
????? xxpxXEXD d)(
222
???
? ? ? ? ? ?2121 XEXEXXE ???? ???
4-17
? 正态分布
? 如果连续型随机变量 X的密度函数为
? 则称随机变量 X服从均值为 μ,方差为 σ2的正态分布,
记为 X~N(μ,σ2)。
? 如果一个正态分布的 μ=0,σ=1,则称该正态布为标
准正态分布,相应的随机变量称为标准正态随机变
量,用 Z表示,即 Z~N(0,1),相应的分布密度函数

? ?
? ?
? ???????
?
?
xxp
x
2
2
2e
2
1 ? ?
??
? ? ? ??????? ? zzp
z
2
2
e
2
1
?
4-18
? 一般正态分布 与标准正态分布 的关系,
? 若随机变量 X服从正态分布 N (μ,σ2),则随机
? 变量 Z = 服从标准正态分布,即
Z~N(0,1)。?
??X
4-19
? 例:某大学英语考试成绩服从正态分布,已知平均成绩为 70
分,标准差为 10分。求该大学英语成绩在 60— 75分的概率。
)
(, )
.
()
(
? ? ?
??
? ? ? ?
?
??
?
60 70 70 75 70
10 10 10
1 0 5
0 53 28
60 75
X
pZ
pX
p
4-20
第二节 抽样分布
? 一、抽样的基本概念
? 二、抽样分布
? (一)重复抽样分布
? (二)不重复抽样分布
? 三、大数定理与中心极限定理
4-21
一、抽样的基本概念
? 抽样涉及的基本概念有:
? 总体与样本 (见第一章 )
? 样本容量与样本个数
? 总体参数与样本统计量
? 重复抽样与不重复抽样
? 这些概念是统计学特有的,体现了统计学的
基本思想与方法。
4-22
总体和样本(参见第 1章)
? 1.总体:又称全及总体、母体,指所要研究对
象的全体,由许多客观存在的具有某种共同
性质的单位构成。总体单位数用 N 表示。
? 2.样本:又称子样,来自总体,是从总体中按
随机原则抽选出来的部分,由抽选的单位构
成。样本单位数用 n 表示。
? 3.总体是唯一的、确定的,而样本是不确定的、
可变的、随机的。
4-23
样本容量与样本个数
? 样本容量:一个样本中所包含的单位数,用 n
表示。
? 样本个数:又称样本可能数目,指从一个总
体中所可能抽取的样本的个数。对于有限总
体,样本个数可以计算出来。样本个数的多
少与抽样方法有关。 (这个概念只是对有限总
体有意义,对无限总体没有意义! )
4-24
总体参数和样本统计量
? 总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。
? 样本统计量:根据样本分布计算的指标。是随机变量。
平均数
标准差、方差
成数
参数
?
?,?2
p
统计量
S,S2
P
? ?
? ?? ?
?
?
总体
? ??
样本
X
22 ()
1xxs n ??? ?
22 ()
1
f
f
xxs
?
???
?
4-25
重复 (置 )抽样与不重复 (置 )抽样
? 重置抽样与不重置抽样(各有 3个特点 P90)
? 重复抽样:例如从 A,B,C,D,E五个字母
中随机抽取两个作为样本。 N=5,n=2
? 考虑顺序时:样本个数 =Nn=52=25
? 不考虑顺序时:样本个数 =
A
B
A
C
D
E
B
B
C
D
A
E
C
B
C
D
A
E
D
B
C
D
A
E
E
B
C
D
A
E
- ( - ) !( - ) ! !nNn NnC ? ??1 11
4-26
重复 (置 )抽样与不重复 (置 )抽样
A
B
C
D
E
B C
D
A
E
C
B
D
A
E
D
B
C
A
E
E
B
C
D
A
n)!-(N !NP nN ??
A
B
C
D
E
B C
D
E
C
D
E
D
E
E
n ) !n !-(N !NC nN ??
? 不重复抽样:
? 例如从 A,B,C,D,E五个字母中随机抽取两个作为样本。 N=5,n=2
? 考虑顺序时:样本个数
? 不考虑顺序时:样本个数
4-27
二、抽样分布
? 抽样分布的概念:由样本统计量的全部可能
取值和与之相应的概率(频率)组成的分配
数列。(主要求出样本平均数的期望与方差)
? 包括以下内容
? 重置抽样分布
? 样本平均数的分布
? 样本成数的分布
? 不重置抽样分布
? 样本平均数的分布
? 样本成数的分布
4-28
重置抽样分布 --样本平均数的分布
? 某班组 5个工人的日工
资为 34,38,42,46、
50元。
? ? = 42
? ?2 = 32
? 现用重置抽样的方法从
5人中随机抽 2个构成样
本。共有 52=25个样本。
如右图。
样本
样本平
均数 X
样本
样本平
均数 X
3 4,3 4
3 4,3 8
3 4,4 2
3 4,4 6
3 4,5 0
3 8,3 4
3 8,3 8
3 8,4 2
3 8,4 6
3 8,5 0
4 2,3 4
4 2,3 8
4 2,4 2
4 2,4 6
4 2,5 0
34
36
38
40
42
36
38
40
42
44
38
40
42
44
46
46,34
4 6,3 8
4 6,4 2
4 6,4 6
4 6,5 0
5 0,3 4
5 0,3 8
5 0,4 2
5 0,4 6
5 0,5 0
40
42
44
46
48
42
44
46
48
50
4-29
? 验证了以下两个结论:
? 抽样平均数的标准差反
映所有的样本平均数与
总体平均数的平均误差,
称为抽样平均误差,用
表示。
重置抽样分布 --样本平均数的分布
样本平均数 X 频数
34
36
38
40
42
44
46
48
50
1
2
3
4
5
4
3
2
1
合计 25
( ) ( )XfE X X f?? ? ?? 42 元
()( ) ( )X X fX f? ????
?
222 16 元
X?
()EX ?? ()
nX
?? ? 22
X n
?? ?
4-30
重置抽样分布 --样本平均数的分布
? 由概率论知,如果总体是正态分布的,则样
本平均数的抽样分布是如下正态分布
? 这是一个非常重要的结论,有广泛的应用。
(请参见中心极限定理。)
2
(,)N
n
?
?
4-31
重置抽样分布 --样本成数的分布
? 总体成数 p是指具有某种特征的单位在总体中的比重。成数是一个特殊平
均数,设总体单位总数目是 N,总体中有该特征的单位数是 N1。设 x是 0、
1变量(总体单位有该特征,则 x取 1,否则取 0),则有:
? 现从总体中抽出 n个单位,如果其中有相应特征的单位数是 n1,则样本成
数是:
? P也是一个随机变量,利用样本平均数的分布性质结论,即有:
1??NpxN
1? nP
n
? ?
? ? ? ?
()
1 1?
?
?
? ?
? ? ?
E P p
pp pp
P
nnn
4-32
不重置抽样分布
? 样本均值的分布性质:
? 样本成数的分布性质
2
()
()
1
?
?
??
?
???
?? ??
???X
EX
Nn
X
nN
? ? ? ?
()
1
1
?
?
? ???
? ??
???
E P p
pp Nn
P
nN
4-33
抽样分布总结
样本平均数的分布 样本成数的分布
重复抽

不重复
抽样
()EX ??
() ?? ? nX
? ? ? ?1ppP n? ??
()EX ??
()E P p?
2
() 1NnX nN?? ???? ?????
()E P p?
? ? ? ?1 1pp NnP nN? ? ???? ?????
4-34
三、大数定理与中心极限定理
? 大数定理
11lim
1
?
?
?
?
?
?
? ???
???
??
n
i
in Xnp
1l i m ?
?
?
?
?
?
? ??
??
?pnmp
n
当样本容量 n充分大时,可以用
样本平均估计总体平均。
当试验次数 n充分大时,可以用
频率代替概率。
大数定理的意义:个别现象受偶然因素影响,但是,对
总体的大量观察后进行平均,就能使偶然因素的影响相
互抵消,从而使总体平均数稳定下来,反映出事物变化
的一般规律,这就是大数定理的意义。
4-35
中心极限定理
? 正态分布的再生定理,相互独立的两个正态
随机变量相加之和仍服从正态分布。
? 中心极限定理:
? 大样本的平均数近似服从正态分布。
???
?
???
?
n
NX
2
,~ ??
4-36
例 1:求样本平均数的概率分布
? 设某公司 1000名职工的人均年奖金为 2000元,标准差 500元,随机抽取 36
人作为样本进行调查,问样本的人均年奖金在 1900~2200元之间的概率有
多大?
2 0 0 0,5 0 0,3 6n??? ? ?
( 190 0 220 0 ) ( 1.2 2.4 )P X P Z? ? ? ? ? ?
1
1
190 0 200 0 1.2
500
36
Xz
n
?
?
? ?? ? ? ?
2
2200 2000 2.4500
36
z ???
8 7 6 8.02 )4.2(2 )2.1( ??? FF
1.2? 2.4
0
0.1
0.2
0.3
0.4
0.5
-4 -3 -2 -1 0 1 2 3 4
( 2,4 ) (1,2 )( 2,4 ) 2FFF ???
4-37
例 2
? 某地区职工家庭的人均年收入平均为 12000元,标准差为
2000元。若知该地区家庭的人均年收入服从正态分布,现采
用重复抽样从总体中随机抽取 25户进行调查,问出现样本平
均数等于或超过 12500元的可能性有多大?
()nX n?? ? ?? ? ? ? ? ?20001 2 0 0 0 2 0 0 0 2 5 4 0 025,,,
( ) ( ) (, )p X p Z p Z?? ? ? ? ?1 2 5 0 0 1 2 0 0 01 2 5 0 0 1 2 5400
1 0 9 4.02 )25.1(5.0 ??? F
4-38
例 3
? 某商场推销一种洗发水。据统计,本年度购买此种洗发水的
有 10万人,其中 6万是女性。如果按不重复随机抽样方法,
从购买者中抽出 100人进行调查,问样本中女性比例超过
50%的可能性有多大?
( 5 0 % )?pP ??
( 1 ) 0, 6 0, 4 1 0 0( ) ( 1 ) ( 1 ) 0, 0 0 4 8 91 0 0 1 0 0 0 0 0pp nP n N? ? ?? ? ? ? ?
() 5 0 % 6 0 % 2,0 40,0 0 4 8 9
Pp
Pz ?
? ?? ? ? ?
( 5 0 % ) ( 2, 0 4 )p P p Z? ? ? ?
9 7 9 3.05.02 )04.2( ??? F
6 6 0 %,( ) (1 )10p p p p?? ? ? ?
4-39
第三节 总体参数估计
? 本节主要内容:
? 总体参数估计概述
? 总体参数的点估计
? 参数区间估计
? 样本容量的确定
4-40
一、总体参数估计概述
? 设待估计的总体参数是 θ,用以估计该参数的统计量是,
抽样估计的 极限误差 是 Δ,即:
? 极限误差是根据研究对象的变异程度和分析任务的性质来确
定的在一定概率下的允许误差范围。
? 参数估计的两个要求:
? 精度:估计误差的最大范围,通过极限误差来反映。显然,Δ越小,
估计的精度要求越高,Δ越大,估计的精度要求越低。极限误差的确
定要以实际需要为基本标准。
? 可靠性:估计正确性的一个概率保证,通常称为估计的置信度。
??
??? ??
?
4-41
二、总体参数的点估计
? 点估计的含义:直接以样本统计量作为相应
总体参数的估计量。
? ?
?
?
?
?
?
?
?
?
?
?
?
??
?
?
?
?
?
?
1
2
22
n
XX
s
Pp
X
?
?
4-42
优良估计量标准
? 优良估计标准:
? 无偏性:要求样本统计量的平均数等于被估计的总体参数本身。
? 一致性:当样本容量充分大时,样本统计量充分靠近总体参数本身。
? 有效性:
的样本统计量。是估计是总体参数,若 ??? ?
即满足无偏性。,)?( ?? ?E
1)?(l i m ????? ???Pn ()? 为 任 意 小 的 正 数
更有效。则称的无偏估计量,而都是和若 12?2?21 ?,??
21
?????? ?? ?
X ?经 数 学 证 明, 是 的 无 偏, 一 致 且 有 效 的 估 计 量 。
总体方差的无偏估计量为样本方差 22 ()1xxS n ??? ?
点估计完全正确的概率通常为 0。因此,我们更多的是考虑用
样本统计量去估计总体参数的范围 ?区间估计。
4-43
三、参数区间估计
? 参数区间估计的含义:估计总体参数的区间范围,并给出区
间估计成立的概率值。
? 其中,1-α(0<α<1)称为置信度; α是区间估计的显著性水平,
其取值大小由实际问题确定,经常取 1%,5%和 10%。
12( ) 1p ? ? ? ?
??? ? ? ?
注间对上式的理解:
例如抽取了 1000个样本,根据每一个样本均构造了一个置信区间,,
这样,由 1000个样本构造的总体参数的 1000个置信区间中,有 95%
的区间包含了总体参数的真值,而 5%的置信区间则没有包含。这里,
95%这个值被称为置信水平(或置信度)。
一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值
的次数所占的比例称为置信水平 。
4-44
样本统计量
(点估计 )置信区间
置信下限 置信上限
我们用 95%的置信水平得到某班学生考试成绩的置信区间为 60-80分,如何理解?
错误的理解,60-80区间以 95%的概率包含全班同学平均成绩的真值;或以 95%
的概率保证全班同学平均成绩的真值落在 60-80分之间。
正确的理解:如果做了多次抽样(如 100次),大概有 95次找到的区间包含真值,
有 5次找到的区间不包括真值。
真值只有一个,一个特定的区间, 总是包含, 或, 绝对不包含, 该真值。但是,用
概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。
如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:
该班同学平均成绩的置信区间是 60-80分,置信度为 95%。
4-45
区间估计的基本要素
? 包括:样本点估计值、抽样极限误差、估计的可靠程度
? 样本点估计值
? 抽样极限误差:可允许的误差范围。
? 抽样估计的可靠程度(置信度、概率保证程度)及概率度
? 注意:本教材所进行的区间估计仅指对 总体平均数或成数 的区间估计,
并且在际计算过程中使用下面的式子。式中 Δ是极限误差。
( ) 1
XX
Xp ? ?
??
?? ? ? ?进 一 步 可 以 写 成
1
X
?
?
?
?
?
称 为 置 信 度 ( 或 概 率 保 证 程 度 )
称 为 概 率 度 ( 因 为 它 与 1- 密 切 相 关 P98)
?( ) 1,( ) 1p p X? ? ? ? ?? ? ? ? ? ? ? ? ?即Δ
,1,1
,
X X X
nn
XX
X
X
?
? ? ?
?
? ? ?
?
?? ??
? ? ?
??
?
2
2 2 2
当 服 从 标 准 正 态 分 布 时,通 常 记 z= 简 记 为 z= 请 牢 记 该 式,
当 服 从 t 分 布 时,通 常 记 t,z 与 t 通 常 也 称 为 临 界 值
4-46
区间估计的内容
?2 已知 ?2 未知
均 值 方 差比 例
置 信 区 间
4-47
平均数的区间估计
? 对总体平均数或成数的区间估计时,使用下面的式子
(式中 Δ是极限误差 )
? 有两种模式:
? 1、根据置信度 1-α,求出极限误差 Δ,并指出总体平均数
的估计区间。
? 2、给定极限误差,求置信度。
( ) 1pX ??? ? ? ? ?
4-48
? 当 σ已知时,根据相关的抽样分布定理,服从标准正态分布
N(0,1)。查正态分布概率表,
可得 ( 一般记为 ),则,根据重复抽样与不
重复抽样的 求法的不同,进一步可得总体平均数的估计区间:
? 重复抽样时,区间的上下限为:
? 不重复抽样时,区间的上下限为:
平均数区间估计 — 第 1种模式 (求置信区间 )
( ) 1pX ??? ? ? ? ? ( ) 1
XX
Xp ? ?
??
??? ? ? ?
X
X ???
/ X??
( / ) 1XF ??? ? ?
/2 Xz? ???
X?
nzX
?
? 2?
12 ?
??
N
nN
nzX
?
?
/2z?
/
a b s ( n o r m s i n v( 1 / 2 ) )X
Excel ?
?
?
??
用 函 数 求 的 值
[,]XX? ? ? ? ?的 估 计 区 间 是
4-49
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
??1
2/?2/?
X?/?
2)(
?
? ?
??
X
zp
?
?
?
??
?
??
?
??
??
?
?
?
1)(
1)(
X
XX
zp
X
p
X z ??? /2/?为 什 么 记 为
4-50
平均数区间估计 — 第 1种模式 (求置信区间 )
? 若总体方差未知,则在计算 时,使用样本方差代替总体方差,此时
服从自由度为 n-1的 t分布。查 t分布表可得,并 记为
? 于是:
? 重复抽样时,区间的上下限为:
? 不重复抽样时,区间的上下限为:
X?
X
X ?
?
? /
X??,12 nt? ?
,12 n
SXt
n? ??
,12 1n
S N nXt
Nn? ?
??
?
( ) 1
XX
Xp ? ?
??
??? ? ?
大样本时,t分布与标准正态
分布非常接近,可直接从标准
正态分布表查临界值
,12nt? ?
/
t i n v(,1 ) X
Excel
n
?
?
?
??
用 函 数 求 的 值
4-51
例:总体平均数的区间估计 1
? 对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,要求估
计该批电子元件的平均耐用时数的置信区间(置信度 95%)。
耐用时数 组中值 元件数
900 以下
900 — 950
950 — 1000
1000 — 1050
1050 — 1 100
1 100 — 1 150
1 150 — 1200
1200 以上
875
925
975
1025
1075
1 12 5
1 17 5
1225
1
2
6
25
43
9
3
1
合计 — 100
1055.5 ( )XfX f???? 小 时 2() 5 2, 1 7 ( )1X X fS f?????? 小 时
52,1 7 5,21 7 ( )
100X
Sn? ? ? ? 小 时
X
z ????
( ) 0, 9 5 1, 9 6F z z? ? ?
1 0 5 5, 5 1 0, 2 3 1 0 4 5, 2 7X ? ? ? ? ?所 以
1 0 5 5, 5 1 0, 2 3 1 0 6 5, 7 3X ? ? ? ? ?
1 0 4 5, 2 7 1 0 6 5, 7 3
95%
?平 均 耐 用 时 数 在 小 时 间,
可 靠 程 度 为 。
1, 9 6 5, 2 1 7 1 0, 2 3Xz ? ? ? ???
( ) 1
( ) 1
//
XX
Xp
Xp
S n S n
? ?
??
? ?
??? ? ?
??? ? ?
a b s( n o r m s i n v (1 / 2 ) )
E x c e l z
???
用 函 数 求 值
t如 果 查 分 布 表,则 等 于 1.984
,/Sn?注 意 求 时 查 的 是 标 准 正 态 分 布 表
4-52
? X???X???
X 的 抽 样 分 布
68.27%的样本
pX ??? ? ? ? ?( ) 1
pX? ? ?? ? ? ? ? ? ? ?( ) 1
可 以 写 成
p X X??? ? ? ? ? ? ? ?( ) 1
也 可 以 写 成
XX? ? ? ?11
XX? ? ? ?22
XX? ? ? ?33
XX? ? ? ?44
?
?
??1 ) 1 0 0 %表 示 有 ( 的
区 间 包 含 了
表示样本均值落在 … 区
间的概率是 1-α,例
对总体均值区间估计的进一步理解
4-53
平均数区间估计 — 第 2种模式 (求置信度 )
? 给定极限误差,求置信度
( ) 1pX ??? ? ? ? ?
( ) ( ) 1
X X X
XpF? ?
? ? ?
? ? ?? ? ? ?
通过临界值
x
z ?? ??2,去查标准正态分布,可得出上式的置信度是 1 - α 。
4-54
例:总体平均数的区间估计 2
? 例:经抽样调查计算样本亩产粮食 600公斤,并求得抽样平
均误差为 3公斤,现给定允许极限误差为 6公斤,求置信区间
包含总体平均亩产的概率,即求置信水平。
6 0 0,3,6XX ?? ? ? ?已 知,
6 2,3
X
z ??? ? ?简 便 解 法, %45.95)2()( ?? FzF
XX
X
X
p X X p X
X
p
X
F
??
?
??
?
?
?
? ? ? ? ? ? ? ? ? ?
??
??
?
?
?
( ) ( )
()
()
因 为 服 务 标 准 正 态 分 布
所 以 上 式
结果表明,如果多次反复抽样,
每次都可以由样本值确定一个估
计区间,每个区间或者包含总体
参数的真值,或者不包含总体参
数的真值,包含真值的区间占
F(z),即每一万次抽样,就有 9545
个样本区间包括总体亩产,其余
455个样本区间不包括总体平均
数,即若接受估计区间的判断要
冒 4.55%的机会犯错误的风险。( 2 ) 9 5,4 5 %F??
4-55
成数的区间估计
? 由于总体的分布是( 0,1)分布,只有在大样本的
情况下,才服从正态分布。总体成数可以看成是一
种特殊的平均数,类似于总体平均数的区间估计,
总体成数的区间估计的上下限是:
? 注意:在实践中,由于总体成数常常未知,这时,
抽样平均误差公式中的总体成数用样本成数代替。
? 大样本的条件,np≥5且 n(1-p) ≥5,由于总体成数 p通
常未知,可以用样本成数来近似判断。
2 P
Pz ? ??
? ?? ?? 1
P
pp
n
? ?? ? ??
?
1
1P
pp Nn
nN
4-56
例:总体平均数的区间估计 3
? 对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,设该厂的产品
质量检验标准规定,元件耐用时数达到 1000小时以上为合格品。要求估计该批电
子元件的合格率,置信水平 95%。
耐用时数 组中值 元件数
900 以下
900 — 950
950 — 1000
1000 — 1050
1050 — 1 100
1 100 — 1 150
1 150 — 1200
1200 以上
875
925
975
1025
1075
1 12 5
1 17 5
1225
1
2
6
25
43
9
3
1
合计 — 100
91 91%100P ??
( 1 ) (,)
( 1 ) 2, 8 6 %
P
pp
n
PP
n
? ??
???
总 体 成 数 未 知 用 样 本 成 数 代 替
96.1%,95)( ?? zzF
1, 9 6 2, 8 6 % 5, 6 1 %Pz ?? ? ? ? ? ?
91% 5.6% 85.4%P ? ? ? ? ?
91% 5.6% 96.6%P ? ? ? ? ?
。间,可靠性为—合格率在 %95%6.96%4.85?
4-57
总体均值区间估计总结
XX
Xp ? ?
??
??? ? ? ?( ) 1
pX ??? ? ? ? ?( ) 1
总体平均数估计区间的
上下限
总体方差
已知 N(0,1)
重复抽样
不重复抽样
总体方差
未知
t(n-1)
大样本时近
似服从 N(0,1)
重复抽样
不重复抽样
X
X ?
?
? 所 服 从 的 分 布 X?
n?/
Sn/
1
Nn
Nn
? ?
?
1
S N n
Nn
?
?
,12 n
SXt
n? ??
,12 1n
S N nXt
Nn? ?
??
?
nzX
?
? 2?
12 ?
??
N
nN
nzX
?
?
? 如果是正态总体
4-58
? 如果不是正态总体,或分布未知
总体方差已知
且是大样本
总体方差未知
且是大样本
X
X N?
?
? ~ ( 0,1 )近 似 服 从
X
X N?
?
? ~ ( 0,1 )近 似 服 从
此时不考虑小样本情况
X n
Nn
Nn
??
?
?
??
?
/
1

X Sn
S N n
Nn
? ?
??
?
/
1

因此,大样本情况下,直接用
标准正态分布求置信区间即可。
4-59
总体成数估计区间估计总结
? 总体成数估计区间的上下限
只考虑大样本情况(请记住大样本条件)
? ?PP
Pz
n
?
?
?
2
1
? ?PP Nn
Pz
nN?
? ?
?
?2
1
1
4-60
对总量指标的区间估计
? 在对总体平均数进行区间估计的基础上,可
进一步推断相应的总量指标,即用总体单位
总数 N分别乘以总体平均数的区间下限和区间
上限,便得到相应总量( Nμ)的区间范围。
( ) ( )
xx
xx
XX
N X N N X
?
?
? ? ? ? ? ?
? ? ? ? ? ?
4-61
例 1
? 某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品 200只,样
本优质率为 85%,试计算当把握程度为 90%时优质品率的区间范围。
n = 20 0, P = 0,8 5,
/,z ? ?2 1 645
( ) ( ),
P
p p P P
nn?
??? ? ?11 0 0252 /,%pp z ? ?? ? ?2 4 1 5
总体优质品率 p 的置信度为 90% 的置信区间为
%, % %, %
,%, %即
p
p
? ? ? ?
??
85 4 15 85 4 15
80 85 89 15
若这批产品共有 2000 只,则可进一步推算出这批产品中优质品总数 Np 的置信区间为
[, %,,% ]
[,]即
??200 0 80 85 200 0 89 15
161 7 178 3
4-62
例 2
? 某商场从一批食品(共 800袋)中随机抽取 40袋(假设用重复抽样),测
得每袋平均重量为 791.1克,标准差为 17.136克,要求以 95%的把握程度,
估计这批食品的平均每袋重量以及这批食品总重量的区间范围。
样本均值,?X 7 9 1 1 克, 样本标准差,?S 1 7 1 3 6 克
/,
.
..xn
S
t
n
? ?? ? ? ? ?21
1 7 1 3 6
2 2 6 2 1 2 2 6
10

平均重量的置信区间 [ 79 1.1 - 12,26,791,1 + 12.2 6 ],即 [ 77 8.84,803,36 ]
总重量的置信区间
[800*778.84,800*803.36],即 [623072,642688]
4-63
三、样本容量确定
? 什么是样本容量确定问题?
( ) 1
X
X
zz
Fz
?
? ?
? ? ????? ?
???
( ) 1
XX
Xp ? ?
??
??? ? ?
当抽样平均误差保持不变时,极限误差 Δ (体现估计精度)与
概率度 z (体现可靠性)两者同向变化。因此,抽样估计的精
度与可靠性之间存在矛盾。为了调和这一矛盾的,可以适当降
低抽样平均误差。而要降低
x?
,则必须 增加样本容量 n 。样本
容量 n 究竟取多大合适?
4-64
确定样本容量
? 在设计抽样时,先确定允许的 误差范围 和必要的 概率保证程
度,然后根据历史资料或试点资料确定 总体的标准差,最后
来确定样本容量。
估计总体均值
时样本容量的
确定
重复抽样
不重复抽样
估计成数时样
本容量的确定
重复抽样
不重复抽样
x z n?
???
2 x
z
n ?
?
?? ?
22
2
2
x
Nz
n Nz?
?
?
??? ??
22
2
2 2 2
2
x
nz
Nn?
?? ? ?
2
1
? ?
p
z p p
n ?
?
? ?
2
2
2
1
? ?
? ?p
N z p p
n N z p p?
?
?
? ? ? ?
2
2
22
2
1
1
4-65
确定样本容量应注意的问题
? 计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:
? 一是用历史资料已有的方差与成数代替;
? 二是在进行正式抽样调查前进行几次试验性调查,用试验
中方差的最大值代替总体方差;
? 三是成数方差在完全缺乏资料的情况下,就用成数方差的
最大值 0.25代替。
? 如果进行一次抽样调查,同时估计总体均值与成数,
用上面的公式同时计算出两个样本容量,可取一个
最大的结果,同时满足两方面的需要。
? 上面的公式计算结果如果带小数,这时样本容量不
按四舍五入法则取整数,取比这个数大的最小整数
代替。例如计算得到,n=56.03,那么,样本容量取
57,而不是 56。
4-66
例:确定样本容量 1
? 对某批木材进行检验,根据以往经验,木材长度的标准差为
0.4米,而合格率为 90%。现采用重复抽样方式,要求在
95.45%的概率保证程度下,木材平均长度的极限误差不超过
0.08米,抽样合格率的极限误差不超过 5%,问必要的样本单
位数应该是多少?
样本平均数的单位数, ().
x
zn ? ?? ? ?? 2222
2 2
2 0 4 100
0 0 8 棵
样本成数的单位数,.() ().
p
z p pn ???? ? ?? 22
2 2
2 0 9 0 11 144
0 0 5 棵
.??04 %p?90 ( ), %Fz ? 9 5 4 5,x??08 %p??5
4-67
例:确定样本容量 2
? 对某批木材进行检验,根据以往经验,木材的合格率为 90%、
92%,95%。现采用重复抽样方式,要求在 95.45%的概率保
证程度下,抽样合格率的极限误差不超过 5%,问必要的样
本单位数应该是多少?
样本成数的单位数
()
x
z p pn ?? ?2
2
1,,().????2 22 0 9 0 1 1440 0 5 棵
4-68
第四节 抽样的组织形式
? 本节主要内容:
? 抽样估计效果的衡量与抽样组织形式
? 简单随机抽样
? 类型抽样
? 整群抽样
? 等距抽样
? 阶段抽样
? 不同抽样组织设计的比较
4-69
一、抽样估计效果的衡量与抽样组织形式
? 抽样估计效果好坏,关键是 抽样平均误差 的控制。
抽样平均误差小,抽样效果从整体上看就是好的;
否则,抽样效果就不理想。
? 抽样平均误差受以下几方面的因素影响:
? 一是总体的变异性,即与总体的标准差大小有关
? 二是样本容量
? 三是抽样方法。
? 四是抽样的组织形式
? 抽样的组织形式有如下几种:
简单随机抽样、类型抽样、等距抽样、整群抽样、
阶段抽样
4-70
二、简单随机抽样
??? /X n
1
1
??
?
?
? ? ?
?X
N n n
NNnn
4-71
三、类型抽样
? 含义:又称分层抽样。对总体各单位按一定标志加以分组,
然后从每一组中按随机原则抽取一定单位构成样本。
组,有设总体分为 k 按比例取样,即
NnN
nNnNn
k
k ???? ?
2
2
1
1kNNNN ???? ?21
knnnn ???? ?21
1 22 1 2 21 1 1 2 1 22 1,,,,,,,,,,,,kk k k nn n XXXXX X X X XL LLLL
得到样本如下:
需 要 解 决 的 问 题 是,
如 何 求 出 抽 样 平 均 误 差 ( 即 样 本 平 均 数 的 标 准 差 )?
?? ? /X n
4-72
类型抽样 — 求样本平均数样本平均数
n
Xn
N
XN
X iiii ?? ??
其中
iX
为各组平均数,
in
ij
j
i
i
X
X
n
?
?
?
1
),,2,1( ki ??
1 22 1 2 21 1 1 2 21 12,,,:,,,,,,,,,LL L LL kk k k nn nX X XXX X X XX样 本
1 22 1 2 21 1 1 2 21 12,,,,,,,,,,,,LL L LL kNN k k k Nxxxxx x x x x总 体,
4-73
类型抽样 — 求抽样平均误差
1 22 1 2 21 1 1 2 21 12,,,:,,,,,,,,,LL L LL kk k k nn nX X XXX X X XX样 本
22
22
2
() i
i X
X
n
X
n
?
?? ??
?(根据 P 63 方差性质 4, 5 )
其中,
iX
?
是第 i 组中 抽样 平均数的标准差,
i
i
X
i
n
?
? ?
(重复抽样)
? 2i
第 i 组的组内方差,用第 i 组抽取到 的 样本 方差进行近似估算,
?
??
? ? ? ???
22
11
( ( ) ) / ( ( ) ) /
iiNn
i ij i i ij i i
jj
x x N X X n
1 22 1 2 21 1 1 2 21 12,,,,,,,,,,,,LL L LL kNN k k k Nxxxxx x x x x总 体,
4-74
类型抽样 — 求抽样平均误差
抽样平均误差
于是重复抽样下的抽样平均误差
???
? ? ? ? ? ?
?
?
222
22 1
( ) /
iiii
iX
i
n
nn
n n n n

? 2i
是组内方差平均数)
不重复抽样条件下的抽样平均误差为
?
?
??
? ? ???
??
2
1
i
X
n
nN
1 22 1 2 21 1 1 2 21 12,,,:,,,,,,,,,LL L LL kk k k nn nX X XXX X X XX样 本
1 22 1 2 21 1 1 2 21 12,,,,,,,,,,,,LL L LL kNN k k k Nxxxxx x x x x总 体,
4-75
类型抽样 — 两点结论
从类型抽样的抽样平均误差公式来看,类型
抽样的抽样平均误差与组间方差无关,它决
定于组内方差的平均水平。而方差的加法定
理:,因此有如下结论:
? 抽样效果一般来说好于简单随机抽样。
? 因此在分组时应尽量扩大组间方差(组间差
异),缩小组内方差(组内差异),从而减
少抽样误差,提高抽样效果。
222
i??? ??
4-76
类型抽样 — 例
? 假设某农场种植小麦 1 200亩,根据其地理条件划分为甲、乙、丙三类,
按 5%的比例总共抽取 60亩进行调查,结果如下表所示。试以 95%的概率
估计农场平均亩产量的区间范围。
麦田
类别
总体面积 ( 亩 )
iN
抽查面积 ( 亩 )
in
抽样平均亩产
( 斤 )
亩产标准差
( 斤 )
甲 600 30 600 20
乙 360 18 460 25
丙 240 12 400 36
合计 1 2 00 60 — —
X ? 518 ( 斤 ),ii
i
n
n
?? ??? 22 646 7( 斤 )
.,i
X n
?? ? ? ?2 6 4 6 7 33
60
( 斤 )
按题意,α = 5%,
2?z
= 1.96,所以
Xz ? ?? ? ?2
= 1.96 × 3.3= 6.46 8 ( 斤 )
[ X - Δ,X +Δ ] = [ 51 1.53 2,5 2 4.46 8 ]
总体平均亩产量在 51 1.5 斤到 524, 5 斤之间
4-77
四、整群抽样
? 定义:又称集团抽样。将总体各单位分为若
干群,然后从中抽取部分群,对中选群的所
有单位进行全面调查。
。个单位,即群,每群包含个单位分为设总体 RMNMRN ?
群r M rMn?有
4-78
整群抽样 — 抽样平均误差的计算
样本平均数
r
i
i
X
X
r
?
?
?
1,其中
M
X
X
M
j
ij
i
?
?
?
1 是每群的平均数
? ?ri,,2,1 ??
样本平均数的抽样平均误差
从上式可以看出,整群抽样实质上是以群代替总体单位,以群平均数
代替总体单位标志值之后的简单随机抽样。群间方差是
? ? ? ?
Rr
i
i
ii
XX
Rr
??
?
??
??
??
??
2
2
2 11
又整群抽样都采用不重复抽样
X
Rr
rR
?
?
???
? ??
???
2
1
在计算抽样平均误
差时假定每群单位
数是相同的,但实
际工作中,通常是
,自然群,,其单
位数一般是不等的。
4-79
整群抽样 — 抽样效果评价
? 好处是操作方便、省时、省力。确定一群便
可以调查许多单位,但正是由于抽样单位比
较集中,限制了样本单位在总体中分配的均
匀性,所以有时代表性较代,抽样误差较大。
可以增加样本单位来减少误差 。
? 抽样平均误差只取决于群间方差(与类型抽
样相反),因此分群时,应尽量扩大群内方
差(群内差异),缩小群间方差(群间差异)
来提高抽样效果。
4-80
整群抽样 — 例 1
? 从某县的 100个村庄中抽出 10村,进行调查得
平均每户饲养家禽 35头,各村的平均数的方
差为 16头,请计算平均抽样误差。
.X Rr
rR
?? ??? ? ? ?? ? ?
? ? ? ?? ? ? ?
2 1 6 1 0 0 1 0
12
1 1 0 1 0 0 1
? ?2 16 R ? 100 r ?10
4-81
整群抽样 — 例 2
? 假设某水泥厂大量连续生产 100公斤装水泥,一昼夜产量为 14 400袋,平
均每分钟产量 10袋。现每隔 144分钟抽取一分钟的产量 (10袋为一群 ),一
昼夜共抽取 100袋水泥,观察结果如下表,试计算样本平均数的抽样平均
误差,并以 95%的概率估计每包水泥重量的区间范围。
样本群
编号
各群每袋
平均重量
1 98
2 102
3 104
4 106
5 100
6 98
7 100
8 96
9 100
10 106
合计 1 01 0
R = 1440 r = 10
? ?iXX
r
?
?
?
?
2
2
= 10.6 公斤
2
.
X
Rr
rR
?
?
?? ? ? ?
? ? ?? ? ? ?
?? ? ? ?
2
1 0 6 1 0
1
1 1 0 1 4 4 0
= 1.026 ( 公斤 )
α = 5%,概率度
2
?z
= 1.96
所以每包水泥的重量的置信区间是,
[,]XXX z X z??????
22
= [ 101 - 1.96 × 1.026,101+ 1.9 6 × 1.026 ]
= [ 98.99,103,01 ]
4-82
五、等距抽样
? 含义:又称机械抽样或系统抽样。先按某个标志对总体单位进行排序,
然后依固定的间隔来抽取样本单位。这样可以保证样本单位均匀地分布
在总体的各个部分,有较高的代表性。
? 总体的单位数 N,需要抽取的样本单位数 n,则等距抽样的间隔大小:
k=N/n
( ) ( ) ( )
ik
k k k i k
n k n k n k i nk
? ? ?
? ? ? ? ? ?
12
1 2 2
1 1 1 2 1
LL
LL
M M M M
LL
总体排序标志是由总体的有关辅
助信息确定的,与调查标志两者
间可以有关也可以无关。
1、无关标志排队:如家计调查,
按门牌号码排序。
2、有关标志排队,如农产量调查
按平均亩产量高低排序。
一般来讲,有关标志排序 要比无
关标志排序的机械抽样更为优越。
在排队时,要注意避免
抽样间隔与现象本身的
周期性节奏相重合。以
减少 系统偏差的影响,提
高样本的代表性 。
4-83
等距抽样 — 抽样平均误差的计算
? 无关标志排队时,为了方便起见,可以采用
简单随机抽样的平均误差代替等距抽样平均
误差,
X
n S n
n N n N
?? ? ? ? ?? ? ? ?
? ? ? ?? ? ? ?
22
11
4-84
六、阶段抽样
? 含义:所谓阶段抽样,就是先从总体中抽出
较大的范围的单位,再从中选的大单位中抽
较小范围的单位,依次类推,最后从更小的
范围抽出样本基本单位。
? 阶段抽样一般应用于总体范围很大的情况。
如在我国的农产量调查、职工家计调查中都
很适用:先从全国抽出各个省,再从抽中的
省中抽出县、市,最后抽出样本的基本单位
等等。
4-85
阶段抽样 — 两阶段抽样
? 两阶段抽样较为简单。本书主要分析两阶段
抽样平均误差的控制问题。
? 两阶段抽样在组织技术上可以看成是整群抽
样和类型抽样的结合。
? 设总体分成 R组,每组 M个单位。两阶段抽样
就是:第一阶段用整群抽样方式从总体的全
部 R组(群)中,随机抽取 r组(群);第二
阶段用类型抽样方式从每个中选组中抽出 m样
本单位。
4-86
两阶段抽样 — 样本平均数
样本的平均数 X
r
X
rm
X
X
r
i
i
r
i
m
j
ij ?? ?
?? ?
??
11 1
其中
iX
为第 i 组的样本平均数
m
X
X
m
j
ij
i
?
?
?
1 ( i =1,2,?,r )
4-87
两阶段抽样 — 抽样平均误码
? 两阶段抽样的平均误差是由两部分构成的,第一部分是第一阶段从总体
全部组抽部分组所引起的组间误差,第二部分是由第二阶段在中选组中
抽部分单位所引起的组内平均误差。
22
12
11X
SS R r r M m
r R r m R M
?
??? ? ? ? ? ?
?? ? ? ? ? ? ?
? ? ? ? ? ?
式中 ? ?
r
XX
S
i? ?
?
2
2
1
为样本的组间方差;
r
S
S j
?
?
2
22
2
为各样本组内方差的平均数。
4-88
七、不同抽样组织设计的比较
? 进行抽样设计时需要考虑的两个问题:
? 提高样本的代表性,增加抽样的效果。抽样要满
足随机性要求。
? 抽样设计时,要充分考虑如何降低抽样的成本费
用。
4-89
简单随机抽样是基本抽样组织方式
? 抽样推断效果如何,依赖于所抽出样本的质
量;样本的质量好坏,就看样本对总体的代
表性如何,而这又依赖于抽取样本时的,随
机性”。
? 如果不满足随机性,则样本的代表性就值得
怀疑,抽样推断就无从进行。
4-90
类型抽样与整群抽样比较
? 1、抽样平均误差的决定因素不同。
? 类型抽样的平均误差与组间方差无关,决定于组内方差的平均水平
? 整群抽样的平均误差与组内方差无关,决定于组间方差大小
? 2、减小类型抽样与整群抽样平均误差的方法不同。
? 因为总体方差等于组间方差加上组内方差平均数。所以提高组间方差,降低组内方差可减小类型抽样平均误差
? 对于整群抽样则相反
? 3、适应范围不同。
? 类型抽样充分利用总体的已有信息,其前提就是对总体的结构事先有
一定的认识,然后通过分类把总体中调查标志差异比较接近的单位归
为一组,减少组内差异,再从各组中抽出样本,这样的样本就对总体有更大的代表性。
? 整群抽样适用于无原始资料可利用的总体单位。是一种较为方便有效
的抽样组织方式,有利于提高抽样的效率。但要注意整群抽样有时代
表性不是很理想,抽样误差较大。在实际抽样中,通常要适当增加一些样本单位,以利于缩小抽样误差,提高抽样推断的准确度。
4-91
阶段抽样平均误差的控制
? 阶段抽样误差的控制必须落实到抽样的各个
阶段。两阶段抽样误差控制,要落实为第一
阶段的整群抽样的误差控制与第二阶段的类
型抽样的误差控制两方面。
? 两阶段抽样平均误差,既取决于组间方差也
取决于组内平均方差,但 组间方差 是主要的
因素。所以在组织两阶段抽样时在相同样本
容量要求下,适当 增加第一阶段的组数,比
增加第二阶段的单位数,能更显著地提高抽
样效果。
4-92
选择题
? 1.假定样本容量增加 50%。则重复抽样平均误差:(甲)为
原来的一半;(乙)为原来的 81.6%。在重复抽样时,为使
误差减少 50%,则样本容量:(丙)应增加三倍;(丁)应
增加四倍。
A.甲丙 B.甲丁 C.乙丙 D.乙丁
? 2.抽样估计中的抽样误差( )
A.是不可避免的 B.可以通过改进调查方法避免的
C.是可以运用数学公式计算的
D.误差大小是可以加以控制的
E,包含了登记性误差
? 3.抽样平均误差指标说明( )
A.样本平均数的代表性
B.抽样指标的代表性
C.估计值与实际值的平均误差
D.样本指标相对于总体指标离差的平均水平
E.抽样误差的大小
4-93
? 4.从一个全及总体中可以抽取一系列样本,所以( )
A.样本指标的数值不是唯一确定的
B.样本指标是样本变量的函数
C.总体指标是随机变量
D.样本指标是随机变量
E.样本指标数值随着样本的不同而不同
? 5.影响抽样数目(样本容量)的因素有( )
A.允许误差范围 B.抽样指标的大小 C.抽样方法
D.总体标志变异程度 E.概率保证程度
4-94
? 6,是非标志不存在变异时,意味着:( )
A.各标志值( 1或 0)遇到同样的成数( 0.5)
B.总体所有单位都只具有某属性 —— 只运用变量值,1”
C.总体所有单位都只具有某属性 —— 只运用变量值,0”
D.所计算的方差为 0
E.所计算的方差为 0.25
? 7.抽样推断的置信度、概率度和精确度关系表现在( )
A.概率度增大,估计的可靠性也增大
B.概率度增大,估计的精确度下降
C.概率度缩小,估计的精确度也缩小
D.概率度缩小,估计的可靠性也增大
E.估计的可靠性增大,估计的精确度也增大
? 8.标准差、抽样平均误差的联系和区别?
4-95
计算题 1
? 从某大公司的 10000女工中随机抽
取 100名,调查她们每天家务劳动
时间,资料如下:
试计算:
? (1) 计算每天家务劳动 2— 5
小时女工的比重、比重方差、
均方差系数。
? (2)在重复抽样条件下,以
95.45%的置信度来估计公
司女工平均每天家务劳动时
间的区间估计。
? (3)在不重复抽样条件下,
以 z=1的概率度估计该公司
女工每天家务劳动时间 2— 5
小时的比重区间,指出这种
区间的可信程度。
每天家务劳
动小时数
女工人数
1 以下
1 —— 2
2 —— 3
3 —— 4
4 —— 5
5 —— 6
3
16
42
30
8
1
合计 100
4-96
计算题 2
? 一家公司随机抽取了 100个坏帐, 经计算, 其
平均余额为 5570元, 样本标准差为 725元, 试
以 90%的概率保证程度估计该公司的平均坏
帐余额区间 。
? 另一家公司也为估计坏帐而抽出了 100个坏帐,
这些坏帐的标准差为 285.3。 如今公司希望坏
帐极限误差不超过 35元, 置信度 95%,则应
抽取多少份坏帐?
4-97
计算题 1的答案
( 1 )
%P
??
??
4 2 3 0 8
80
100
( ),PS P P? ? ?2 1 0 1 6
.
%
.
P
S
V
P
? ? ?
0 16
50
08
( 2 )
.X ? 2 7 7
(小时)
()
X
X X f
S
f
?
?
?
?
?
2
2
1
=0.9264
.
X
X
S
nn
?
? ???
0 9 2 6 4
10
=0.096
/,.x Xz ? ?? ? ? ? ?2 2 0 0 9 6 0 1 9 2
(小时)
公司女工平均每天家务劳动时间的区间为( 2.77 - 0.192, 2.77+0.192 ),即( 2,578, 2.962 )小
时,概率保证程度为 95.45% 。
( 3 )
( ),,
()
P
P P N n
nN
?
? ? ? ?
? ? ?
??
1 0 8 0 2 10000 100
1 100 10000 1
=3.98%
/, %, %PP z ? ?? ? ? ? ?2 1 3 9 8 3 9 8
公司女工家务劳动时间 2 — 5 小时的比重区间为( 80 % - 3.98%, 80% +3.98% )即( 76.02%,
83.98% ) 。置信度 68,27% 。
4-98
计算题 2的答案
所求置信区间为
[,]XX? ? ? ?
,概率保证程度为 9 0%
解题步骤大致如下,
( 1 )首先列出相关数据
.n X S ?? ? ? ? ?1 0 0 5 5 7 0 7 2 5 1 0 9
( 2 )根据公式
/ Xz ? ??? 2
进行如下的运算
.???1 0 9
,查 表得
/,z ? ?2 1 645
.
X
S
n
? ? ? ?
725
72 5
100
所以
.,,? ? ? ?1 6 4 5 7 2 5 1 1 9 2 6
( 3 )估计区间为:(略)
/ / /X
S
z z z
nn
? ? ?
?
?? ? ? ?2 2 2
.???1 0 9 5,查 表得
/,z ? ?2 1 96
,又 S = 2 85.3
解如下不等式
?? 35,即,
.
n
??
2 8 5 3
1 9 6 3 5
得,.
n
???
? ??
??
2
1 9 6 2 8 5 3
35
= 255,26
至少 抽取 2 56 份坏帐