2005/07 版权:马如武 精品课程:统计基础(经济管理系)
精品课程
,统计基础,
经济管理系课题组
版权所有:马如武 王桂芳
? 第 6章 抽样调查
? 6.1 抽样调查概述
? 【 学习目标 】
? 本章主要介绍了抽样调查的基本理论以及利用抽样理
论进行假设检验。包括抽样推断的重要意义、基本概念,
通过学习,使学习者能够站抽样推断的基本原理和方法,
利用它进行假设检验。从而为社会经济管理服务等。
? 【 基本要求 】
? 学习本章内容,要求学习者了解抽样调查的重要意义,明
确有关抽样推断的几个基本概念,掌握抽样推断中的抽样
平均误差,参数古迹、必要样本数目的确定等基本原理和
方法。
? 6.1.1 抽样调查
? 1,抽样调查的概念
? 抽样调查的概念可以有广义和狭义两种理解。按照广义
的理解,凡是抽取一部分单位进行观察,并根据观察结果
来推断全体的都是抽样调查,其中又可分为非随机抽样和
随机抽样两种。非随机抽样就是由调查者根据自己的认识
和判断,选取若干个有代表性的单位,根据这些单位进行
观察的结果来推断全体,如民意测验等。随机抽样则是根
据大数定律的要求,在抽取调查单位时,应保证总体中各
个单位都有同样的机会被抽中。一般所讲的抽样调查,大
多数是指这种随机抽样而言,即狭义的抽样调查。所以,
严格意义上的抽样调查就是:按照随机原则从总体中抽取
一部分单位进行观察,并运用数理统计的原理,以被抽取
的那部分单位的数量特征为代表,对总体做出数量上的推
断分析。
? 2,抽样调查的特点
? (1)与全面调查相比较,抽样调查能节省人
力、费用和时间,而且比较灵活
? (2)有些情况下,抽样调查的结果比全面调
查要准确
? (3)抽选部分单位时要遵循随机原则
? (4)抽样调查会产生抽样误差,抽样误差可
以计算,并且可以加以控制
? 3,抽样调查的适用范围
? (1) 有些事物在测量或试验时有破坏性,不
可能进行全面调查
? (2)有些总体从理论上讲可以进行全面调查,
但实际上办不到
? (3)抽样调查方法可以用于工业生产过程中
的质量控制
? (4)利用抽样推断的方法,可以对于某种总
体的假设进行检验,来判断这种假设的真
伪,以决定取舍
? 6.1.2,关于抽样方法
? 1,概率抽样
? 这一方法是根据一个已知的概率选取被调
查者,无须调查人员在选样中判断或抽选。
? (1)简单随机抽样
? (2)分层抽样
? (3)整群抽样
? (4)等距抽样
? 2,非概率抽样
? (1)主要是由调查人员自由选择被调查者的非随机
选样。例如在购物中心采访 100位妇女,这 100位
被调查者可以随机选择。
? (2)通过某些条件过滤选择某些被调查者参与调查
的判断抽样法。在许多情况下,由于研究对象可
能仅限于一部分居民,因而有时采用这种方法能
节省大量经费。
? (3)大多数种类的研究 ––––产品测试、街访、座谈
会,只要不是属于要进行总体推论的大多数项目
都可使用非概率抽样法。
? 6.2 抽样推断中几个基本概念
? 6.2.1,全及总体和抽样总体
? 1,全及总体
? 全及总体简称总体,是指所要认识对象的全体,
总体是由具有某种共同性质的许多单位组成的,
因此,总体也就是具有同一性质的许多单位的集
合体。
? 全及总体按其各单位标志性质不同,可以分为变
量总体和属性总体两类。
? 对于变量总体可分为无限总体和有限总体两类
? 2,抽样总体
? 抽样总体简称样本,是从全及总体中随机抽取出
来,代表全及总体部分单位的集合体。抽样总体
的单位数通常用小写英文字母 n表示。对于全及总
体单位数 N来说,n是个很小的数,它可以是 N的
几十分之一,几百分之一,几千分之一,几万分
之一。一般说来,样本单位数达到或超过 30个称
为大样本,而在 30个以下称为小样本。社会经济
现象的抽样调查多取大样本。而自然实验观察则
多取小样本。以很小的样本来推断很大的总体,
这是抽样调查的一个特点。
? 6.2.2,全及指标和抽样指标
? 1,全及指标
? 根据全及总体各个单位的标志值或标志特征计
算的、反映总体某种属性的综合指标,称为全及
指标。由于全及总体是唯一确定的,根据全及总
体计算的全及指标也是唯一确定的。
? 2,抽样指标
? 由抽样总体各个标志值或标志特征计算的综合指
标称为抽样指标。和全及指标相对应还有抽样平
均数、抽样成数 p、样本标准差 S和样本方差 S2等
等。和 p用小写英文字母表示,以示区别
? 6.2.3,重置抽样与不重置抽样
? 1,重置抽样
? 重置抽样,又称有放回的抽样,是指从全及总体
N个单位中随机抽取一个容量为 n的样本,每次抽
中的单位经登录其有关标志表现后又放回总体中
重新参加下一次的抽选。每次从总体中抽取一个
单位,可看作是一次试验,连续进行 n次试验就构
成了一个样本。因此,重置抽样的样本是经 n次相
互独立的连续试验形成的。每次试验均是在相同
的条件下完全按照随机原则进行的。
? 2,不重置抽样
? 不重置抽样,又称无放回的抽样,是指从全及总
体 N个单位中随机抽取一个容量为 n的样本,每次
抽中的单位登录其有关标志表现后不再放回总体
中参加下一次的抽选。经过连续 n次不重置抽选单
位构成样本,实质上相当于一次性同时从总体中
抽中 n个单位构成样本。上一次的抽选结果会直接
影响到下一次抽选,因此,不重置抽样的样本是
经 n次相互联系的连续试验形成的。
? 6.2.4,抽样框与样本数
? 1,抽样框
? 抽样框,又称抽样结构,是指对可以选择
作为样本的总体单位列出名册或排序编号,
以确定总体的抽样范围和结构。设计出了
抽样框后,便可采用抽签的方式或按照随
机数表来抽选必要的单位数。若没有抽样
框,则不能计算样本单位的概率,从而也
就无法进行概率选样。
? 2,样本数
? 样本数,又称样本的可能数目,是指从总
体 N个单位中随机抽选 n个单位构成样本,
通常有多种抽选方法,每一种抽选方法实
际上是 n个总体单位的一种排列组合,一种
排列组合便构成一个可能的样本,n个总体
单位的排列组合总数,称为样本的可能数
目。
? 6.3 抽样推断的理论基础 —大数定律与中心
极限定理
? 抽样推断的理论基础主要是概率论的极限
定理中的大数定律与中心极限定理。
? 6.3.1 大数定律
? 大数定律是指在随机试验中,每次出现的结果不
同,但是大量重复试验出现的结果的平均值却几
乎总是接近于某个确定的值。其原因是,在大量
的观察试验中,个别的、偶然的因素影响而产生
的差异将会相互抵消,从而使现象的必然规律性
显示出来。例如,观察个别或少数家庭的婴儿出
生情况,发现有的生男,有的生女,没有一定的
规律性,但是通过大量的观察就会发现,男婴和
女婴占婴儿总数的比重均会趋于 50%。
? 6.3.2,中心极限定理
? 大数定律揭示了大量随机变量的平均结果,
但没有涉及到随机变量的分布的问题。而
中心极限定理说明的是在一定条件下,大
量独立随机变量的平均数是以正态分布为
极限的。中心极限定理也有若干个表现形
式,这里仅介绍其中四个常用定理。
? 6.4 抽样误差
? 6.4.1,抽样误差的概念
? 当总体指标未知时,往往要安排一次抽样调查,
然后用抽样调查所获得的抽样指标的观察值作为
总体指标的估计值。这种处理方法是存在一定误
差的,我们把抽样指标与所要估计的总体指标之
间的差值称为抽样误差。抽样误差的大小能够说
明抽样指标估计总体指标是否可行,抽样效果是
否理想等调查性问题。常见的抽样误差有:抽样
平均数与总体平均数之差 ),抽样成数与
总体成数之差 (p- P)。
Xx ?(
? 抽样误差既是一种随机性误差,也是一种代表性
误差。说其是代表性误差,是因为利用总体的部
分资料推算总体时,不论样本选取有多么公正,
设计多么完善,总还是一部分单位而不是所有单
位,产生误差是无法避免的。说其是随机性误差,
是指按随机性原则抽样时,由于抽样的不同,会得
到不同的抽样指标值,由此产生的误差值各不相
同。抽样误差中的代表性误差是抽样调查本身所
固有的、无法避免的误差,但随机性误差则可利
用大数定律精确地计算并能够通过抽样设计程序
扣以控制。
? 抽样误差不包括下面两类误差:一类是调
查误差,即在调查过程中由于观察、测量、
登记、计算上的差错而引起的误差;另一
类是系统性误差,即由于违反抽样调查的
随机原则,有意抽选较好单位或较坏单位
进行调查,这样造成样本的代表性不足所
引起的误差。这两类误差都属于思想、作
风、技术等问题,所以是可以防止和避免
的。
? 6.4.2,影响抽样误差的因素
? 1,抽样单位数的多少
? 2,总体各单位标志值的差异程度
? 3,抽样方法
? 4,抽样的组织形式
? 6.4.3,抽样平均误差
? 一个总体可能抽取很多个样本,因此样
本指标(样本平均数、样本成数等)就有
不同的数值,它们与总体指标(总体平均
数、总体成数等)的离差(即抽样误差)
也就不同。抽样平均误差就是反映抽样误
差一般水平的指标,通常用样本平均数
(或样本成数)的标准差来表示。
抽样平均误差的计算公式
? ①平均数的抽样平均误差
? 重复
? 不重复且等比例
? ②成数的抽样平均误差
? 重复
? 不重复且等比例
nu
i
x
2σ
? N N iii ?? 22 σσ
)1()1(
1
)1(
1
)1(
1
2
1
2
1
2
1
2
N
n
nN
N
N
n
n
N
n
N
N
nN
n
N
N
n
u
i
k
i
ii
k
i
ii
k
i
i
iii
x
????
????
?
??
?
??
σσ
σσ
n
PPu ii
p
)1( ??
N
NPP
PP ii
k
i i
ii
)1(
)1( 1
?
??
?
?
)1()1( Nnn PPu iip ???
( 4)例题
? ①有 12块小麦地,每块 1亩。 6块处于丘陵地带,亩产
量(斤)分别为,300 330 330 340 370 370 。 6
块处于平原地带,亩产量(斤)分别为,420 420
450 460 490 520。抽查 4块,测定 12块地的平均亩
产量,计算其抽样误差。
? ②设亩产在 350以上的为高产田,抽查 4块,测定 12
块地高产田的比重,计算其抽样误差。
? 用类型抽样,每类抽 2块
? 计算各组方差 平均组内方差 抽样误差
亩产量
300 1600
330 100
330 100
340 0
370 900
370 900
合计 3600
211 )( XX ? 亩产量
420 1600
420 1600
450 100
460 0
490 900
520 3600
合计 7800
222 )( XX ?
1X 2X
丘
陵
平
原
3401 ?X
600
6
3 6 0 02
1
?
?σ
4 6 02 ?X
1 3 0 0
6
7 8 0 02
2
?
?σ
95012 61306600
2
2 ?????? ?
N
Nσσ ii
i
41.1549 5 0
2
??? nσu ix
5712
)
12
4
1(
4
9 5 0
)1(
2
??
????
N
n
n
σ
u ix
①
②
地块
数
高产
田数
高产田
比重 %
丘陵 6 2 33.3 66.67 22.2
平原 6 6 100 0 0
iP?1 )1( ii PP ?
iP
%1.1112 06%2.22)1()1( ??????? ? N NPPPP iiiii
%65.164 %1.11)1( ???? n PPu iip
%6.13)12 41(4 %1.11)1()1( ?????? Nnn PPu iip
3、等距抽样
? ( 1)概念:将总体各单位标志值按某一标志顺序排队,
然而按一定的间隔抽取样本单位。
? ( 2)排对的方法
? ①无关标志排队 ②有关标志排队
? ( 3)抽取样本单位的方法
? ①按相等的距离取样
? ②对称等距取样
? ( 4)抽取第一个样本单位的方法
? ①随机抽取 ②居中抽取
( 5)抽样平均误差的计算公式
? ①按无关标志排队,同不重复简单随机抽样
? ②按有关标志排队
)1(1)1(1
2
1
2
1
2
?????? ??
?? i
ik
i
iik
i
i
iiii
x nn
σ
N
Nσ
nN
nN
N
Nσ
nu ?
n
PPu ii
p
)1( ??
Ⅰ 亩产量( ),300 330 330 1X 3201 ?X 20021 ?σ
Ⅱ 亩产量( ),340 370 3702X 3602 ?X 20022 ?σ
Ⅲ 亩产量( ),420 420 4503X 4 3 03 ?X 2 0 023 ?σ
Ⅳ 亩产量( ),460 490 5204X 4 9 04 ?X 60024 ?σ
30012 36003200320032002 ?????????iσ
66.843 0 0 ??xu
3412 ??上例,抽选间隔为
( 6)例题
4、整群抽样
? (1)概念:把总体分为若干群,从总体群中抽取若干样
本群,对抽中的群进行全数登记调查。
( 2)抽样平均误差的计算公式
某水泥厂一昼夜的产量为 14400袋,现每隔 144分钟抽
取 1分钟的水泥( 10袋)检查平均每袋重量和一级品率,
样本资料如下:
计算抽样平均误差
)1(
2
?
??
R
rR
r
δu x
x R
XXδ i
x
? ?? 22 )(
r
xxδ i
x
? ?? 22 )(
)1(
2
?
??
R
rR
r
δu p
p R
PPδ i
p
? ?? 22 )(
r
ppδ i
p
? ?? 22 )(
( 3)例题
样本
群
平均每
袋重量
一级品
比重
1 49 2.25 0.80 0
2 51 0.25 0.75 0.0025
3 52 2.25 0.83 0.0009
4 53 6.25 0.82 0.0004
5 50 0.25 0.80 0
6 49 2.25 0.79 0.0001
7 50 0.25 0.78 0.0004
8 48 6.25 0.80 0
9 50 0.25 0.81 0.0001
10 53 6.25 0.82 0.0004
合计 505 26.25 8.00 0.0048
ix
2)( xx i ?
ip 2)( pp i ?
5.50
10
5 0 5
?
??
?
r
xx i
8.0
10
8
?
??
?
r
pp i
65.2
10
5.26
)( 22
??
?
?
?
r
xx
δ i
x
00048.0
10
0048.0
)(
2
2
?
?
?
?
?
r
pp
δ
i
p
一昼夜有 1440分钟,即把总体分为 1440群,R=1440
每隔 144分钟抽取 1分钟的水泥( 10袋),r= 10
5 1 3.0)11 4 4 0 101 4 4 0(10 652)1(
2
???????? R rRrδu xx
0069.0)11440 101440(100 0 0 4 8.0)1(
2
??????? R rRrδu pp
5、阶段抽样
? ( 1)概念:抽样时,先抽总体中较大范围的单位,再
从中选的较大范围的单位中抽取较小范围的单位,依此
类推,最后得到样本的基本单位。
? ( 2)抽样平均误差的计算公式(以两阶段为例)
? 同理可以得出成数抽样平均误差的计算公式
? ( 3)例题:某地区有 300户居民,分成 10群,现从 10
群中抽 6群,再从抽中的群中每群抽 2户调查其平均收入,
计算抽样平均误差。资料如下:
? 群 1,300 330(户收入)
n
σ
R
rR
r
δu ix
x
22
)1( ???? )1()1(
22
?
??
?
??
M
mM
n
σ
R
rR
r
δu ix
x
n=rm
315?ix 4 5 0)( 211 ??? xx
2 2 524 5 021 ??σ
群 2:户收入 330 340
3352 ?x 50)( 222 ??? xx 2525022 ??σ
群 3:户收入 370 390
3 8 63 ?x 200)( 233 ??? xx 1 0 022 0 02
3 ??σ群 4:户收入 418 434
4 2 64 ?x 128)( 244 ??? xx 6421 2 824 ??σ
群 5:户收入 462 484
4735 ?x
242)( 255 ??? xx 1 2 122 4 22
5 ??σ
群 6;户收入 507 525
5 1 66 ?x 162)( 266 ??? xx 81216226 ??σ
67102)811216410025225(612 ????????iσ
540751647342638033531561 ???????? )(x
6
)5.40 751 6()5.40 731 5( 222 ????? ?
xδ
7 7 3.19
)
130
230
(
12
67.1 0 2
)
110
610
(
6
25.5 1 6 2
)
1
()
1
(
22
?
?
?
?
?
?
?
?
?
?
?
?
?
M
mM
n
σ
R
rR
r
δ
u
ix
x
(三)影响抽样平均误差的因素
? 1、总体标准差的大小
? 2、样本单位数的多少
? 3、抽样方法的不同
? 4、抽样组织方式的差别
二、抽样极限误差
? 样本指标围绕总体指标左右两侧波动形成的一
定范围。
Ppp ???
Xxx ???
? 三、抽样极限误差与抽样平均误差的关系
? (一)抽样分布
? 据中心极限定理,当总体为正态或总体非正态但 n≥30
时,样本均值的分布趋近于正态分布;当 n足够大时,
样本成数的分布近似为正态分布。
? (二)关系
令
22 )
2
1)(
2
1
)( 2
1
2
1
xx u
Xx
x
xx
x
x euef
????
??
(
???
?
x
x
x u
Δ
u
Xxt ???
2
2
1
)( 2
1 z
z ef
??
? 0)( ?zE
12 ?z?
返回2?z2?z?
第三节 抽样单位数目的确定
? 一、抽样单位数目的计算
(一)简单随机抽样
(二)类型抽样
(三)等距抽样
(四)整群抽样
二、影响 抽样单位数目的因素
返
回
一,抽样单位数目的计算
? (一)简单随机抽样
1、计算公式
( 1)平均数
( 2)成数
nzuz
x
xx
2
22
?
?? ???
2
22
2
x
xzn
?
?
??
22
2
2
22
2
xx
x
zN
Nz
n
?
?
?
?
??
?
2
2
2
)1(
p
PPz
n
?
?
?
?
)1(
)1(
2
2
2
2
2
PPzN
PpNz
n
p ???
?
?
?
?
2、例题
( 1)某类产品根据以往资料的估计,总体方差 5.456千
克,现对一批进行简单随机抽样以推断该批产品的平
均重量,要求可靠程度达到 99.73%,误差范围不超过
0.9千克,需要抽多少样本单位?
按题意
( 2)根据以往资料的估计,该类产品的一等品率为
? 90%,可靠程度仍为 99.73%,误差范围不超过 5%,
推断该批产品的一等品率,需要抽多少样本单位?
按题意
45652 ??xσ 32 ??z
90 ??? x
61)90( 45653 2
2
?? ???n
%90?P
%5?? p
324)050( 10903 2
2
?? ?????n32 ??z
(二)类型抽样
? 1、计算公式
重复抽样 不重复抽样
平均数
成数
2
22
2
x
iz
n
?
?
??
22
2
2
22
2
ix
i
zN
Nz
n
?
?
?
?
??
?
2
2
2
)1(
p
ii ppz
n
?
?
?
?
)1(
)1(
2
2
2
2
2
iip
ii
PPzN
PPNz
n
???
?
?
?
?
2、例题
? 某工厂早、中、晚生产罐头 10000瓶,根据以往资料
的估计平均重量的类型平均方差为 0.549克,合格率
的类型平均方差为 0.02787,要求可靠程度为何 95%,
平均重量的允许误差为 0.11克,合格率的允许误差为
0.025,用类型抽样推断 10000瓶罐头的平均重量和合
格率,需要抽多少样本单位?
据题意
1 7 15 4 90)961()110(1 0 0 0 0 5 4 90)961(1 0 0 0 0 22
2
??????? ?????n
1 0 0 0 0?N 5 4 902 ??iσ 9612 ???z 110 ??? x
0 2 7 8 70)1( ??? ii PP 0 2 50 ??? p
1 7 1)0 2 50( 0 2 7 8 70)961( 2
2
?? ????n
(三)等距抽样
? 计算公式
? ( 1)按有关标志排队
? 同类型重复抽样
? ( 2)按无关标志排队
? 同简单随机不重复抽样
2
22
2
x
iz
n
?
?
??
2
2
2
)1(
p
ii ppz
n
?
?
?
?
22
2
2
22
2
xx
x
zN
Nz
n
?
?
?
?
??
?
)1(
)1(
2
2
2
2
2
PPzN
PpNz
n
p ???
?
?
?
?
(四)整群抽样
1、计算公式
2、例题:某水泥厂对一昼夜所生产的 14400袋( 1440群)
水泥抽样检查其质量,根据以往资料,水泥平均重量的
群间方差为 2.65,允许误差为 1.5公斤;一级品率的群
间方差为 0.00048,允许误差为 0.015,要求可靠程度为
95.45%,需要抽多少样本群?
据题意:
22
2
2
22
2
xx
x
zR
Rz
r
?
?
?
?
??
?
22
2
2
22
2
pp
p
zR
Rz
r
?
?
?
?
??
?
1440?R 22 ??z 6522 ??xδ 51??? x
00 04 802 ??pδ
0 1 50 ??? p
56522)51(1 4 4 0 65221 4 4 0 22
2
?????? ????r
80004802)0150(1440 00048021440 22
2
?????? ????r
二、影响抽样单位数目的因素
? (一)总体各单位的变异程度
? (二)抽样推断的准确程度△
? (三)抽样推断的可靠程度 t
? (四)抽样的组织形式
? (五)抽样的方法
? 返
回
σ
第四节 抽样估计
? 一、估计量的优良标准
? 二、抽样估计的方法
? (一)点估计
? (二)区间估计
? 1、平均数的区间估计
? 2、成数的区间估计
? 3,2个总体平均数之差的估计
4、两个总体比例之差的估计
返回
? 一、估计量的优良标准 (一)无偏性
? 1、概念:如果样本统计量的期望值等于该统计量所估
计的总体参数,这个估计量叫无偏估计量。
? 2、样本平均数是总体平均数的无偏估计量
? 总体变量值有 N个( ),样本容
量为 n个( )。
? ( 1)重复抽样
θθE ?)?(
XxE ?)(
1x
1X 2X ? NX
2x ? nx
? ?)()()(1
)()(
21
21
n
n
xExExE
n
n
xxx
ExE
????
???
?
?
?
XXXX
N
N
X
N
X
N
X
PXxExExE
N
N
N
i
iin
?????
????
???? ?
?
)(
1
111
)()()(
21
21
1
21
?
?
?
X
XXX
n
xE
?
???? )(
1
)(
?
? ( 2)不重复抽样
? ?)()()(1)()( 2121 nn xExExEnn xxxExE ???????? ??
XNXNXNXPXxE NN
i ii
?????? ?
?
111)(
2111 ?
NN
N
i ii PXPXPXPXxE ????? ?? ?221112 )(
NNN
NPPP
N
1
1
11
21 ???
????? ?
?
XNXNXNXxE N ?????? 111)( 212 ?
XxExExE n ???? )()()( 21 ?
XXXXnxE ????? )(1)( ?
NN
N
i ii PXPXPXPXxE ????? ?? ?221113 )(
NNN
N
N
NPPP
N
1
2
1
1
21
21 ????
??????? ?
XxE ?? )( 3
? 3、样本成数是总体成数的无偏估计量
? 4、样本方差是总体方差的无偏估计量
(二)有效性:有两个无偏估计量( ),如果那个
估计量与总体参数间的平均离差小,这个估计量更有效。
和 都是 的无偏估计量,与 间的平均离
差为, 与 间的平均离差为, 所以在估计
( P ) 时,( p ) 更有效。
(三)一致性:随着样本容量的增大,估计量与被估参数
的偏差越来越小。
是 的一致估计量。有限总体时,n最大为 N,这
时 = ;无限总体时,当 n ∞时,与 间的
偏差( )的极限为 0。 p( )是 P( )的一致估计
量。
22 )( σsE ?
PpE ?)(
1?θ 2?θ
1X x X 1X
Xσ x
X
nσ
2X
x
x X
x X
2σ 2S
x X
nσ
2 2S 2σ
二、抽样估计的方法
? (一)点估计
? (二)区间估计
? 1、平均数的区间估计
? (1)样本取自总体方差已知的正态分布 (大、小样本)
xX? pP ?
xu
Xxz ??
xx uzxXuzx 22 ?? ????
返回
nux
?? )
1(
2
?
??
N
nN
nu x
?
? 某制造厂质量管理部门希望估计本厂生产的 5500包
原材料的平均重量,抽出 250包,测得平均重量 65
千克。总体标准差 15千克。总体为正态分布,在置
信水平为 95%的条件下建立这种原材料的置信区间。
? 5500包原材料的平均重量在 63.14~66.86之间。
65?x 15?? 05.0?? 96.12 ??z
86.1652 5 01596.165
2
?????? nzx ??
? (2) 正态总体总体方差未知且小样本
? 因总体方差 未知,只能用 代替,
? 而 n很小 常常与 差异较大,就不再是一
个标准正态分布,而是一个 t分布。
? 例:为了估计一分钟广告的平均费用,抽出 15个电视
台组成样本,得样本均值 10000元,标准差 2000元。
总体近似服从正态分布,在置信水平为 95%的条件下
建立广告平均费用的置信区间。
? 电视台一分钟广告的平均费用在 8894~11106之间。
n
s
xt x???
1 0 0 0 0?x 2 0 0 0?s
14.2)14()1( 025.02 ??? tnt ?
05.0??
11061000015200014.210000
2
?????? nstx ?
2s
n
s
x x??
2?
2? 2s
( 3)正态总体总体方差未知且大样本
? 总体方差 未知,只能用 来代替,因 n很大,
就是 的一个较好的估计量,仍然是一个
近似的标准正态分布。
n
s
xz x???
2? 2s 2s
2?
n
s
x x??
? (4)样本取自总体方差已知的非正态分布
? 某职业介绍所从申请某一职业的 1000名申请者中采
用不重复抽样方式随机抽取了 200名,以此来估计
1000名的平均成绩。 200名的平均分为 78,由以往
经验知总体方差 90,不知总体服从何种分布。在置
信水平为 90%的条件下建立 1000名申请者平均成绩
的置信区间。
? 1000名申请者平均成绩在 77~79之间。
30?n
78?x 90?? 1.0?? 645.1
2 ??z
987.078)
11 0 0 0
2001 0 0 0
(
200
90
645.178
)
1
(
2
2
??
?
?
??
?
?
?
N
nN
n
zx
?
?
? ( 5)样本取自总体方差未知的非正态分布
? 例:某超市通过 100位的样本研究每次购买额,均值
和标准差分别为 80元和 20元,在置信水平为 90%的条
件下建立 100位顾客 购买额 的置信区间。
? 所有顾客 购买额在 76.71和 83.29之间。
30?n
n
s
xz x???
1.0?? 645.1
2 ??z
80?x 20?s
29.38010020645.180
2
?????? nszx ?
2、成数的区间估计
pu
Ppz ?? ?
pp uzpPuzp 22 ?? ?? ????
n
ppu
p
)1( ??
n
ppu
p
)?1(? ??
?例 1:某企业在一项关于职工流动原因的研究中,从原
职工中随机抽取了 200人访问,有 140人离开的原因是
工资太低。以 95%的置信水平对总体这种原因离开的人
员比例进行区间估计。
7.0? ?p 05.0?? 96.1
2 ??z
064.07.0200 )7.01(7.096.17.0)?1(??
2
???????? n ppzp ?
该企业由于工资低离开的职工比例为 63.6% 与 76.4%之间
? 例 2
? 对一批灯泡抽取 1%进行质量检验,结果为平均寿命 1010
小时,抽样平均误差 5.6小时 ;合格率 92%,抽样平均误
差 2.4%。要求在 95%的可靠程度下,对该批灯泡的平均
寿命和合格率进行 区间估计。
? 据题意 1010?x 6.5?xu p=92% %4.2?
Pu
9 7 6.1 0 2 00 2 4.9 9 9
6.51 0 9 61 0 1 06.596.11 0 1 0
??
??????
X
X
%7.96%3.87
%4.296.1%92%4.296.1%92
??
??????
P
P
96.12 ??z
3,2个总体平均数之差的估计
? 我们经常希望对来自 2个不同总体的平均数进行比较
( )。而往往无法直接得到其数据,只能用样
本数据( )对其作出估计。
? ( 1) 2个样本平均数之差的抽样分布
? 如果有 2个正态总体,其平均数分别为 和,方
差分别为 和,那么从 2个正态总体中抽取
的容量分别为 和 的 2个独立样本的平均数之差
? 也一定服从均值为,方差为
? 的正态分布。如果是从 2个非正态总体中抽
? 取 2个独立的样本,只要,根据中心极限定理,
样本平均数之差的抽样分布就会逼近正态分布,
21 ?? ?
21 xx ?
1? 2?
21 xx ?
21? 22?
1n 2n
21 ?? ?
)(
2
2
2
1
2
1
nn
?? ?
30?n
( 2) 2个总体平均数之差的估计
? ?2个正态总体且方差已知
? 例:某银行负责人想知道储户两家银行的钱数,随从
每家各抽取 25个储户。样本平均值为:,
? 。两个总体均服从方差分别为
和 的正态分布。在 95%的置信水平下对总
体平均数之差 进行区间估计。
? 有 95%的把握认为总体平均数之差在 1200.42和 1299.58
之间。
4 5 0 0?Ax
3250?Bx 7 5 0 02 ?A?
8 5 0 02 ?B?
)( BA ?? ?
B
B
A
A
BA nnzxx
22
2
)( ??? ???
96.12 ??z
25
8 5 0 0
25
7 5 0 096.1)3 2 5 04 5 0 0( ???? 58.491 2 5 0 ?
2
2
2
1
2
1
2121 )()(
nn
xx
z
??
??
?
???
?
?两个正态总体方差未知但相等(小样本)
? 首先求出共同方差 的估计值,用加权平均数,
权数是它们的自用度。
? 这时,其统计量 服从自由度为 的 t分布,
标准差为:
? 总体平均数之差 的置信区间为:
2? 2s
2
)2()1(
21
2
22
2
112
??
????
nn
snsns
221 ?? nn
212
2
1
2 11
nnsn
s
n
s ???
2121
2
22
2
11
2
21
21
2
21
11
2
)1()1(
)(
11
)(
nnnn
snsn
txx
nn
stxx
??
??
???
???
???
?
?
)( 21 ?? ?
? 例:某工厂中有两台生产金属棒的机器,分别抽取 11根
和 21根。两个样本的数据为,英寸,
英寸;, 。假定两个总体近似服从
正态分布,且总体方差相等。 在 95%的置信水平下对总
体平均数之差 进行区间估计。)( BA ?? ?
1.6?Ax 95.5?Bx
0 1 8.02 ?As 02.02 ?Bs
0 1 9.0
22111
02.0)121(0 1 8.0)111(
2
)2()1(
21
2
22
2
112
?
??
?????
?
??
???
?
nn
snsn
s
1.015.0
21
1
11
1
0 1 9.00 4 2.2)95.51.96(
11
)(
21
2
21
????????
???
nn
stxx
?
?有 95%的把握认为两台机器所生产金属的平均长度差别
在 0.05和 0.25英寸之间。
?两个正态总体方差未知且不等(小样本)
? 其统计量
? 不服
从自
? 由度为 的 t分布,而服从自由度为
的 t分布,
? 置信区间为:
221 ?? nn
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
)()(
)(
n
ns
n
ns
n
s
n
s
fd
?
?
??
2
2
2
1
2
1
2
21 )( n
s
n
stxx ???
?
2
2
2
1
2
1
2121 )()(
n
s
n
s
xx
t
?
???
??
??
? 例:上例中总体方差不等。
? ? ? ?
23
21
2102.0
11
11018.0
12
02.0
11
018.0
22
2
?
?
?
?
?
?
?
?
?
??fd
07.22 ??t
11.015.021 02.011018.007.2)95.51.6( ??????
?有 95%的把握认为两台机器所生产金属的平均长度差别
?在 0.04和 0.26英寸之间。
?两个非正态总体方差未知(大样本)
2
2
2
1
2
1
221
)( nnzxx ??? ???
?例; A,B两所大学某期末英语考试采用同一试题。 A
校认为该校学生成绩能比 B校高 10分。为了证实,从两
校各抽取一个样本,样本资料如下,人,
人,
分,,, 。在
95%的置信水平下确定两校平均分之差的置信区间。
75?An 80?Bn
6.78?Ax 8.73?Bx 2.8?As 4.7?Bs
96.1205.02 ?? zz ?
5.28.480 4.775 2.896.1)8.736.78(
22
??????
?有 95%的把握认为两校成绩之差在 2.3和 7.3之间。
4、两个总体比例之差的估计
? 在大样本且总体比例不太接近 0或 1时,两个独立样本的
比例之差 的抽样分布近似服从正态分布,其
平均值为,标准差为:
21 ~~ pp ?
21 ~~ pp ?
21 pp ?
2
22
1
11 )1()1(
21 n
pp
n
pp
pp
????
??
2
22
1
11 )
~1(~)~1(~
21 n
pp
n
pps
pp
????
?
2
22
1
11
221
)~1(~)~1(~)~~(
n
pp
n
ppzpp ?????
?
? 例:某企业有两个车间,对 B车间的工人首先进行业务
培训。 3个月后,对两个车间的产品进行检验。从车间
A抽取 200件,从车间 B抽取 220件,废品率为
? 。在 95%的把握程度下构造两车间废品率之差
的置信区间。
%15~ ?Ap
%3~ ?Bp
96.1205.02 ?? zz ?
2
22
1
11
221
)~1(~)~1(~)~~(
n
pp
n
ppzpp ?????
?
054.012.0
220
)03.01(03.0
200
)15.01(15.0
96.1)03.015.0(
??
??
?
??
???
有 95%的把握认为两车间 废品率之差在 6.6%和 17.4%之间,
返回
第五节 假设检验
? 一、假设检验与参数估计的区别
? 二、假设检验的程序
? 三、双侧检验和单侧检验
? 四、一个总体平均数的假设检验
? 五、一个总体成数的假设检验
? 七、两个总体比例之差的假设检验
六、两个总体平均数之差的假设检验
返回
一、假设检验与参数估计的区别
? 参数估计和假设检验是统计推断的两个组成部分,都
是利用样本对总体进行某种推断,但推断的角度不同。
参数估计是在总体参数未知的情况下用样本统计量估
计总体参数。假设检验是先对总体参数提出一个假设,
然后利用样本信息去检验这个假设是否成立,如果成
立,就接受这个假设,否则就放弃。
? 某企业生产了一批灯管,按规定每只灯管的使用寿命
不得低于 1000小时。现从中任意抽取 100只,发现有
6只的使用寿命低于 1000小时,若规定不合格率达到
5%时,灯管就不能出厂,问该批灯管能否出厂。
? 从 2002年的新生儿中随机抽取 30个,测得其平均体
重为此 3210克,而 2001年为 3190克,问新生儿体重
2002年比 2001年有无显著差异。
二、假设检验的程序
? 第一,提出原假设和替换假设
? 把需要通过样本去推断其正确与否的命题称为原假设,
用 表示。上例,
? 与原假设对立的假设是替换假设,:
? 第二,确定适当的检验统计量
? 根据样本的大小、总体方差是否已知,选择适当的检验
统计量。
? 第三,规定显著性水平
? 是当原假设为正确时人们却把它拒绝了的概率或风险。
是由人们确定的,当 取 0.05时,表明作出接受原假
设的决定时,其正确的可能性(概率)为 95%。
? 第四,计算检验统计量的值
? 第五,作出统计决策
α
0H 3 1 9 0?μ
1H 3 1 9 0?μ
0H
α
三、双侧检验和单侧检验
? (一)双侧检验
?,,
? 只要 > 3190 或 < 3190 中有一个成立,就可以否
定原假设。
0H 3 1 9 0?μ 1H 3 1 9 0?μ
μ μ
25.02 ?α25.02 ?α
接受域拒绝域 拒绝域
临界值 临界值
05.0?α
? (二)单侧检验
? 1、左单侧检验
? 按规定灯泡的使用寿命平均低于 1000小时,该批灯泡
不能出厂。已知灯泡的使用寿命服从正态分布,标准
差为 20小时。在总体中随机抽取了 100只,得知样本
均值为 960小时,该批灯泡能否出厂。
?,, <10000H 1 0 0 0?? ?1H
接受域
临界值
拒绝域
05.0??
2、右单侧检验
? 如前例,不合率不能高于 5%。
?,, >5%0H %5?? 1H ?
临界值
接受域 拒绝域
05.0??
四、一个正态总体的假设检验
? (一)总体为正态分布且方差已知
? 例:我国出口凤尾鱼罐头,标准规格是每罐净重 250克,
据以往经验,标准差是 3克。某食品厂生产一批供出口
用的这种罐头,从中抽取 100罐检验,其平均净重 251
克。假定罐头重量服从正态分布,按规定显著性水
平,问这批罐头是否合乎出口标准?
( 1)提出假设, 克,,克
( 2)建立统计量 ~N( 250,) ~N( 0,
1 )
( 3)临界值
( 4)计算统计量的值
05.0??
0H 250?? 1H 250??
x 1003
2
n
xz
?
???
96.1
2
??? ?z
33.3
100
3
250251 ???z
? ( 5)进行决策 拒绝
0-1.96 1.96
拒绝域 拒绝域接受域
33.3
?
0H
(二 )总体为正态分布但方差未知且 n<30
? 例:某汽车轮胎厂声称该厂生产的汽车轮胎平均行使里
程大于 25000公里。现对 15个轮胎作了试验,得到平均
行使里程为 27000公里,标准差 5000公里,假定轮胎的
行驶里程数近似服从正态分布,我们能否得出结论,该
厂的产品与该厂声称的标准相符?( )
?,,, >2500
05.0??
0H 2 5 0 0?? 1H ?
55.1
15
5 0 0 0
2 5 0 0 02 7 0 0 0 ?????
n
s
xt ?
76.1)14()1( 05.0 ??? tnt ?
1.76
接受域 拒绝域
(三 )总体为非正态分布
? 1,总体的标准差已知
? 2,总体的标准差未知
? 某房产经纪人称邻近地区房屋的平均价值低于 480000
元。现抽查了 40间房屋,平均价值 450000元,标准差
为 120000元。在 0.05的置信水平下,这些数据能否支持
这位经纪人的说法?
?,,, μ <480000
30?n
n
xz
?
???
30?n ns
xz ???
0H 1H480000??
581.1
40
120000
480000450000 ??????
n
s
xz ?
6 4 5.1??? ?z
五、一个总体比率的假设检验
? 例,一项调查结果表明某市老年人口比重为 14.7%,该
市
? 老年人口研究会为了检验该项调查是否可靠,随机抽选
了 400名居民,发现其中有 57人年龄在 65岁以上。调查
结果是否支持该市老年人口比重为 14.7%的看法?
?, p=14.7%,
05.0??
0H %7.14?p1H %25.14
400
57? ??p
254.0
400
%)7.141%(7.14
%7.14%25.14
)1(
?
00
0 ??
?
??
?
??
n
pp
ppz
96.1
2
???z
六、两个总体平均数之差的假设检验
? (一 )两个正态总体且方差已知 服从标准正态分布。
例:有两种方法可用于制造两种以抗拉强度为重要特征
的产品,经验表明,用这两种方法生产出来的产品的抗
拉强度都近似服从正态分布。 千克,千克。
现分别抽取 12和 16,得到样本均值分别为 40千克和 34
千克。想知道这两种方法所生产产品的抗拉强度是否相
同。( )
?,,, 27.2
16
64
12
36
0)344()()(
2
2
2
1
2
1
2121 ?
?
??
?
?
???
?
nn
xx
z
??
??
61 ?? 82 ??
05.0??
0H 021 ?? ?? 1H 021 ?? ??
96.1
2
???z
(二)两个正态总体方差未知(大样本)
2
2
2
1
2
1
2121 )()(
n
s
n
s
xx
z
?
???
?
??
(三)两个正态总体方差未知但相等(小样本)
2
2
1
2
2121 )()(
n
s
n
s
xx
t
?
???
?
??
2
)2()1(
21
2
22
2
112
??
????
nn
snsns
?已知某年来自城市和农村中考考生的成绩都服从正态分
布且方差基本相等。抽样资料城市:,,
? 。农村为:,, 。
能否说明城市考生的平均成绩比农村考生的平均成绩高。
?,,,0H 1H021 ?? ?? 021 ?? ??
171 ?n
152 ?n
5451 ?x
4 9 52 ?x501 ?s 552 ?s
274521517 55)115(50)117(
22
2 ?
??
??????s
69.2
15
2 7 4 5
17
2 7 4 5
0)4 9 55 4 5( ?
?
???t
7.1)30(05.0 ?t
(四)两个正态总体方差未知且不等(小样本)
2
2
2
1
2
1
2121 )()(
n
s
n
s
xx
t
?
???
??
??
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
)()(
)(
n
ns
n
ns
n
s
n
s
fd
?
?
??
?某纺织厂可以从两个地区购买原纱。如果有理由认为 A地
区的产品(价格低)抗断强度不低于 B地区的产品,该厂
将购买 A地区的产品。现各抽取一个随机样本,结果
为:,, ;,,
? 。假定抗断强度近似服从正态分布,总体方差
不等。在 水平下,你是否建议纺织厂购买价格
低的原纱。
10?An 12?Bn94?Ax 98?Bx142 ?As
92 ?Bs
05.0??
0H 1H:,, 0?? BA ?? 0?? BA ??
73.2
12
9
10
14
0)9894( ??
?
????t
19
12
)129(
10
)1014(
)
12
9
10
14
(
22
2
?
?
?
??fd
73.1)19(05.0 ??? t
(五)两个非正态总体方差已知(大样本)
2
2
2
1
2
1
2121 )()(
nn
xx
z
??
??
?
???
?
(六)两个非正态总体方差未知(大样本)
? 例:一个样本由 A居民区的 100个家庭组成,另一个样
本由 B居民区的 150个家庭组成。两个样本关于居住时
间的信息为,个月,; 个
月,。能否说明 A区平均居住时间比 B区短?
( )
?,,,
05.0??
33?Ax 49?Bx9002 ?As 1 0 5 02 ?Bs
BA ?? ? BA ?? ?0H 1H 0.4
1 5 0
1 0 5 0
1 0 0
9 0 0
0)4933()()(
2
2
2
1
2
1
2121 ??
?
??
?
?
???
?
n
s
n
s
xx
z
??
6 4 5.105.0 ??? z
七、两个总体比例之差的假设检验
? (一)检验两个总体比例之差是否为 0
2
22
1
11
2121
)1()1(
)()~~(
n
pp
n
pp
pppp
z
?
?
?
???
?
21
21
nn
xxp
?
??
)
11
)(1(
)()~~(
)1()1(
)()~~(
21
2121
21
2121
nn
pp
pppp
n
pp
n
pp
pppp
z
??
???
?
?
?
?
???
?
?例,甲、乙两公司属于同一行业,现调查工人愿意增
加福利还是工资。在甲公司 150名工人中有 75人愿意
增加工资,乙公司 200名工人中有 103人愿意增加工资,
在 的显著性水平下,可以判断这两个公司中
愿意增加工资的工人所占比例不同吗?
01.0??
0H 1H001 ?? pp 001 ?? pp
5.015075~ 1 ??p 515.0
200
103~
2 ??p 5 0 9.02 0 01 5 0
1 0 375 ?
?
??p
278.0
)
200
1
150
1()509.01(509.0
515.050.0 ??
????
??z
58.22 ??? ?z
(二)检验两个总体比例之差为某一常数
? 例:某厂检验员认为该厂 A车间的产品一级品率比 B车
间的产品一级品率至少高 5%,现从 A车间抽取 150,
一级品 113;从 B车间抽取 160,一级品 104。检验员
的观点对吗?( )05.0??
0H 1H 05.0?? BA pp
0 2 7.1
1 6 0
)65.01(6 5 0.0
1 5 0
)7 5 3.01(7 5 3.0
05.0)6 5 0.07 5 3.0(
)
~
1(
~
)
~
1(
~
)
~~
(
0
?
??
?
??
??
?
?
?
?
??
?
B
BB
A
AA
BA
n
pp
n
pp
dpp
z
05.0?? BA pp
7 5 3.01 5 01 1 3~ ??Ap 65.0
1 6 0
1 0 4~ ??
Bp
645.1??z
返回
? 实训练习
? 【 基本训练 】
? 单项选择
? 1.抽样调查的目的在于( )
? ①了解总体的基本情况 ②用样本指标推断总体指标
? ③对样本进行全面调查 ④了解样本的基本情况
? 2.抽样调查所特有的误差是( )
? ①由于样本的随机性而产生的误差 ②登记误差
? ③系统性误差 ④ ①②③都错
? 3.抽样调查和重点调查的主要区别是( )
? ①选取调查单位的方式不同 ②调查的目的不同
? ③调查的单位不同 ④两种调查没有本质区别
? 4当可靠度大于 0.6827时,抽样极限误差( )
? ①大于抽样平均误差 ②小于平均误差
? ③等于抽样平均误差 ④与抽样平均误差的大小关系依样本容量而定
? 5.有一批灯泡共 1000箱,每箱 200个,现随机抽取 20箱并检查这些箱中全部灯泡,此种检验属于( )
? ①纯随机抽样 ②类型抽样 ③整群抽样 ④等距抽样
? 6.当总体单位不很多且各单位间差异较小时宜采用( )
? ①类型抽样 ②纯随机抽样 ③整群抽样 ④两阶段抽样
? 7.在抽样推断中,抽样误差是( )
? ①可以避免的 ②可避免且可控制
? ③不可且无法控制 ④不可避免但可控制
? 8.在其他条件不变的情况下,抽样单位数越多,则( )
? ①系统误差越大 ②系统误差越小
? ③抽样误差越大 ④抽样误差越小
? 9.假定 10亿人口大国和 100万人口小国的居民年龄变异程度相同,现在各自用重复抽样方法抽取本国的 1‰ 人口设计者,则抽样误差( )
? ①两者相等 ②前者大于后者
? ③前者小于后者 ④不能确定
? 10.某地有 2万亩稻田,根据上年资料得知其中平均亩产的标准差为 50公斤,若以 95.45%的概率保证平均亩产的误差不超过 10公斤,应抽
选( )亩地作为样本进行抽样调查。
? ① 100 ② 250 ③ 500 ④ 1000
? 多项选择
? 1.抽样调查的特点有( )
? ①按随机原则抽取样本单位 ②把握程度大小
? ③以样本指标推断总体指标 ④抽样误差可以计算和控制
? ⑤以上都对
? 2.抽样调查适用于下列哪些场合( )
? ①不宜进行全面调查而又要了解全面情况 ②工业产品质量检验
? ③调查项目多、时效性强 ④只需了解一部分单位的情况
? ⑤适用于任何调查
? 3.确定样本容量时应考虑的因素有( )
? ①极限误差大小 ②全面性检验
? ③取样方式 ④抽样的组织形式
? ⑤被研究标志变异程度
? 4.区间估计中总体指标所在范围( )
? ①是一个可能范围 ②是绝对可靠的范围
? ③不是绝对可靠的范围 ④是有一定把握程度的范围
? ⑤是毫无把握的范围
? 5.概率度是指( )
? ①置信概率 ②以抽样平均误差为单位
? ③是样本指标与总体指标的绝对误差范围
? ④表示极限误差是平均误差的几倍 ⑤是表明抽样估计可靠程度的一个参数
精品课程
,统计基础,
经济管理系课题组
版权所有:马如武 王桂芳
? 第 6章 抽样调查
? 6.1 抽样调查概述
? 【 学习目标 】
? 本章主要介绍了抽样调查的基本理论以及利用抽样理
论进行假设检验。包括抽样推断的重要意义、基本概念,
通过学习,使学习者能够站抽样推断的基本原理和方法,
利用它进行假设检验。从而为社会经济管理服务等。
? 【 基本要求 】
? 学习本章内容,要求学习者了解抽样调查的重要意义,明
确有关抽样推断的几个基本概念,掌握抽样推断中的抽样
平均误差,参数古迹、必要样本数目的确定等基本原理和
方法。
? 6.1.1 抽样调查
? 1,抽样调查的概念
? 抽样调查的概念可以有广义和狭义两种理解。按照广义
的理解,凡是抽取一部分单位进行观察,并根据观察结果
来推断全体的都是抽样调查,其中又可分为非随机抽样和
随机抽样两种。非随机抽样就是由调查者根据自己的认识
和判断,选取若干个有代表性的单位,根据这些单位进行
观察的结果来推断全体,如民意测验等。随机抽样则是根
据大数定律的要求,在抽取调查单位时,应保证总体中各
个单位都有同样的机会被抽中。一般所讲的抽样调查,大
多数是指这种随机抽样而言,即狭义的抽样调查。所以,
严格意义上的抽样调查就是:按照随机原则从总体中抽取
一部分单位进行观察,并运用数理统计的原理,以被抽取
的那部分单位的数量特征为代表,对总体做出数量上的推
断分析。
? 2,抽样调查的特点
? (1)与全面调查相比较,抽样调查能节省人
力、费用和时间,而且比较灵活
? (2)有些情况下,抽样调查的结果比全面调
查要准确
? (3)抽选部分单位时要遵循随机原则
? (4)抽样调查会产生抽样误差,抽样误差可
以计算,并且可以加以控制
? 3,抽样调查的适用范围
? (1) 有些事物在测量或试验时有破坏性,不
可能进行全面调查
? (2)有些总体从理论上讲可以进行全面调查,
但实际上办不到
? (3)抽样调查方法可以用于工业生产过程中
的质量控制
? (4)利用抽样推断的方法,可以对于某种总
体的假设进行检验,来判断这种假设的真
伪,以决定取舍
? 6.1.2,关于抽样方法
? 1,概率抽样
? 这一方法是根据一个已知的概率选取被调
查者,无须调查人员在选样中判断或抽选。
? (1)简单随机抽样
? (2)分层抽样
? (3)整群抽样
? (4)等距抽样
? 2,非概率抽样
? (1)主要是由调查人员自由选择被调查者的非随机
选样。例如在购物中心采访 100位妇女,这 100位
被调查者可以随机选择。
? (2)通过某些条件过滤选择某些被调查者参与调查
的判断抽样法。在许多情况下,由于研究对象可
能仅限于一部分居民,因而有时采用这种方法能
节省大量经费。
? (3)大多数种类的研究 ––––产品测试、街访、座谈
会,只要不是属于要进行总体推论的大多数项目
都可使用非概率抽样法。
? 6.2 抽样推断中几个基本概念
? 6.2.1,全及总体和抽样总体
? 1,全及总体
? 全及总体简称总体,是指所要认识对象的全体,
总体是由具有某种共同性质的许多单位组成的,
因此,总体也就是具有同一性质的许多单位的集
合体。
? 全及总体按其各单位标志性质不同,可以分为变
量总体和属性总体两类。
? 对于变量总体可分为无限总体和有限总体两类
? 2,抽样总体
? 抽样总体简称样本,是从全及总体中随机抽取出
来,代表全及总体部分单位的集合体。抽样总体
的单位数通常用小写英文字母 n表示。对于全及总
体单位数 N来说,n是个很小的数,它可以是 N的
几十分之一,几百分之一,几千分之一,几万分
之一。一般说来,样本单位数达到或超过 30个称
为大样本,而在 30个以下称为小样本。社会经济
现象的抽样调查多取大样本。而自然实验观察则
多取小样本。以很小的样本来推断很大的总体,
这是抽样调查的一个特点。
? 6.2.2,全及指标和抽样指标
? 1,全及指标
? 根据全及总体各个单位的标志值或标志特征计
算的、反映总体某种属性的综合指标,称为全及
指标。由于全及总体是唯一确定的,根据全及总
体计算的全及指标也是唯一确定的。
? 2,抽样指标
? 由抽样总体各个标志值或标志特征计算的综合指
标称为抽样指标。和全及指标相对应还有抽样平
均数、抽样成数 p、样本标准差 S和样本方差 S2等
等。和 p用小写英文字母表示,以示区别
? 6.2.3,重置抽样与不重置抽样
? 1,重置抽样
? 重置抽样,又称有放回的抽样,是指从全及总体
N个单位中随机抽取一个容量为 n的样本,每次抽
中的单位经登录其有关标志表现后又放回总体中
重新参加下一次的抽选。每次从总体中抽取一个
单位,可看作是一次试验,连续进行 n次试验就构
成了一个样本。因此,重置抽样的样本是经 n次相
互独立的连续试验形成的。每次试验均是在相同
的条件下完全按照随机原则进行的。
? 2,不重置抽样
? 不重置抽样,又称无放回的抽样,是指从全及总
体 N个单位中随机抽取一个容量为 n的样本,每次
抽中的单位登录其有关标志表现后不再放回总体
中参加下一次的抽选。经过连续 n次不重置抽选单
位构成样本,实质上相当于一次性同时从总体中
抽中 n个单位构成样本。上一次的抽选结果会直接
影响到下一次抽选,因此,不重置抽样的样本是
经 n次相互联系的连续试验形成的。
? 6.2.4,抽样框与样本数
? 1,抽样框
? 抽样框,又称抽样结构,是指对可以选择
作为样本的总体单位列出名册或排序编号,
以确定总体的抽样范围和结构。设计出了
抽样框后,便可采用抽签的方式或按照随
机数表来抽选必要的单位数。若没有抽样
框,则不能计算样本单位的概率,从而也
就无法进行概率选样。
? 2,样本数
? 样本数,又称样本的可能数目,是指从总
体 N个单位中随机抽选 n个单位构成样本,
通常有多种抽选方法,每一种抽选方法实
际上是 n个总体单位的一种排列组合,一种
排列组合便构成一个可能的样本,n个总体
单位的排列组合总数,称为样本的可能数
目。
? 6.3 抽样推断的理论基础 —大数定律与中心
极限定理
? 抽样推断的理论基础主要是概率论的极限
定理中的大数定律与中心极限定理。
? 6.3.1 大数定律
? 大数定律是指在随机试验中,每次出现的结果不
同,但是大量重复试验出现的结果的平均值却几
乎总是接近于某个确定的值。其原因是,在大量
的观察试验中,个别的、偶然的因素影响而产生
的差异将会相互抵消,从而使现象的必然规律性
显示出来。例如,观察个别或少数家庭的婴儿出
生情况,发现有的生男,有的生女,没有一定的
规律性,但是通过大量的观察就会发现,男婴和
女婴占婴儿总数的比重均会趋于 50%。
? 6.3.2,中心极限定理
? 大数定律揭示了大量随机变量的平均结果,
但没有涉及到随机变量的分布的问题。而
中心极限定理说明的是在一定条件下,大
量独立随机变量的平均数是以正态分布为
极限的。中心极限定理也有若干个表现形
式,这里仅介绍其中四个常用定理。
? 6.4 抽样误差
? 6.4.1,抽样误差的概念
? 当总体指标未知时,往往要安排一次抽样调查,
然后用抽样调查所获得的抽样指标的观察值作为
总体指标的估计值。这种处理方法是存在一定误
差的,我们把抽样指标与所要估计的总体指标之
间的差值称为抽样误差。抽样误差的大小能够说
明抽样指标估计总体指标是否可行,抽样效果是
否理想等调查性问题。常见的抽样误差有:抽样
平均数与总体平均数之差 ),抽样成数与
总体成数之差 (p- P)。
Xx ?(
? 抽样误差既是一种随机性误差,也是一种代表性
误差。说其是代表性误差,是因为利用总体的部
分资料推算总体时,不论样本选取有多么公正,
设计多么完善,总还是一部分单位而不是所有单
位,产生误差是无法避免的。说其是随机性误差,
是指按随机性原则抽样时,由于抽样的不同,会得
到不同的抽样指标值,由此产生的误差值各不相
同。抽样误差中的代表性误差是抽样调查本身所
固有的、无法避免的误差,但随机性误差则可利
用大数定律精确地计算并能够通过抽样设计程序
扣以控制。
? 抽样误差不包括下面两类误差:一类是调
查误差,即在调查过程中由于观察、测量、
登记、计算上的差错而引起的误差;另一
类是系统性误差,即由于违反抽样调查的
随机原则,有意抽选较好单位或较坏单位
进行调查,这样造成样本的代表性不足所
引起的误差。这两类误差都属于思想、作
风、技术等问题,所以是可以防止和避免
的。
? 6.4.2,影响抽样误差的因素
? 1,抽样单位数的多少
? 2,总体各单位标志值的差异程度
? 3,抽样方法
? 4,抽样的组织形式
? 6.4.3,抽样平均误差
? 一个总体可能抽取很多个样本,因此样
本指标(样本平均数、样本成数等)就有
不同的数值,它们与总体指标(总体平均
数、总体成数等)的离差(即抽样误差)
也就不同。抽样平均误差就是反映抽样误
差一般水平的指标,通常用样本平均数
(或样本成数)的标准差来表示。
抽样平均误差的计算公式
? ①平均数的抽样平均误差
? 重复
? 不重复且等比例
? ②成数的抽样平均误差
? 重复
? 不重复且等比例
nu
i
x
2σ
? N N iii ?? 22 σσ
)1()1(
1
)1(
1
)1(
1
2
1
2
1
2
1
2
N
n
nN
N
N
n
n
N
n
N
N
nN
n
N
N
n
u
i
k
i
ii
k
i
ii
k
i
i
iii
x
????
????
?
??
?
??
σσ
σσ
n
PPu ii
p
)1( ??
N
NPP
PP ii
k
i i
ii
)1(
)1( 1
?
??
?
?
)1()1( Nnn PPu iip ???
( 4)例题
? ①有 12块小麦地,每块 1亩。 6块处于丘陵地带,亩产
量(斤)分别为,300 330 330 340 370 370 。 6
块处于平原地带,亩产量(斤)分别为,420 420
450 460 490 520。抽查 4块,测定 12块地的平均亩
产量,计算其抽样误差。
? ②设亩产在 350以上的为高产田,抽查 4块,测定 12
块地高产田的比重,计算其抽样误差。
? 用类型抽样,每类抽 2块
? 计算各组方差 平均组内方差 抽样误差
亩产量
300 1600
330 100
330 100
340 0
370 900
370 900
合计 3600
211 )( XX ? 亩产量
420 1600
420 1600
450 100
460 0
490 900
520 3600
合计 7800
222 )( XX ?
1X 2X
丘
陵
平
原
3401 ?X
600
6
3 6 0 02
1
?
?σ
4 6 02 ?X
1 3 0 0
6
7 8 0 02
2
?
?σ
95012 61306600
2
2 ?????? ?
N
Nσσ ii
i
41.1549 5 0
2
??? nσu ix
5712
)
12
4
1(
4
9 5 0
)1(
2
??
????
N
n
n
σ
u ix
①
②
地块
数
高产
田数
高产田
比重 %
丘陵 6 2 33.3 66.67 22.2
平原 6 6 100 0 0
iP?1 )1( ii PP ?
iP
%1.1112 06%2.22)1()1( ??????? ? N NPPPP iiiii
%65.164 %1.11)1( ???? n PPu iip
%6.13)12 41(4 %1.11)1()1( ?????? Nnn PPu iip
3、等距抽样
? ( 1)概念:将总体各单位标志值按某一标志顺序排队,
然而按一定的间隔抽取样本单位。
? ( 2)排对的方法
? ①无关标志排队 ②有关标志排队
? ( 3)抽取样本单位的方法
? ①按相等的距离取样
? ②对称等距取样
? ( 4)抽取第一个样本单位的方法
? ①随机抽取 ②居中抽取
( 5)抽样平均误差的计算公式
? ①按无关标志排队,同不重复简单随机抽样
? ②按有关标志排队
)1(1)1(1
2
1
2
1
2
?????? ??
?? i
ik
i
iik
i
i
iiii
x nn
σ
N
Nσ
nN
nN
N
Nσ
nu ?
n
PPu ii
p
)1( ??
Ⅰ 亩产量( ),300 330 330 1X 3201 ?X 20021 ?σ
Ⅱ 亩产量( ),340 370 3702X 3602 ?X 20022 ?σ
Ⅲ 亩产量( ),420 420 4503X 4 3 03 ?X 2 0 023 ?σ
Ⅳ 亩产量( ),460 490 5204X 4 9 04 ?X 60024 ?σ
30012 36003200320032002 ?????????iσ
66.843 0 0 ??xu
3412 ??上例,抽选间隔为
( 6)例题
4、整群抽样
? (1)概念:把总体分为若干群,从总体群中抽取若干样
本群,对抽中的群进行全数登记调查。
( 2)抽样平均误差的计算公式
某水泥厂一昼夜的产量为 14400袋,现每隔 144分钟抽
取 1分钟的水泥( 10袋)检查平均每袋重量和一级品率,
样本资料如下:
计算抽样平均误差
)1(
2
?
??
R
rR
r
δu x
x R
XXδ i
x
? ?? 22 )(
r
xxδ i
x
? ?? 22 )(
)1(
2
?
??
R
rR
r
δu p
p R
PPδ i
p
? ?? 22 )(
r
ppδ i
p
? ?? 22 )(
( 3)例题
样本
群
平均每
袋重量
一级品
比重
1 49 2.25 0.80 0
2 51 0.25 0.75 0.0025
3 52 2.25 0.83 0.0009
4 53 6.25 0.82 0.0004
5 50 0.25 0.80 0
6 49 2.25 0.79 0.0001
7 50 0.25 0.78 0.0004
8 48 6.25 0.80 0
9 50 0.25 0.81 0.0001
10 53 6.25 0.82 0.0004
合计 505 26.25 8.00 0.0048
ix
2)( xx i ?
ip 2)( pp i ?
5.50
10
5 0 5
?
??
?
r
xx i
8.0
10
8
?
??
?
r
pp i
65.2
10
5.26
)( 22
??
?
?
?
r
xx
δ i
x
00048.0
10
0048.0
)(
2
2
?
?
?
?
?
r
pp
δ
i
p
一昼夜有 1440分钟,即把总体分为 1440群,R=1440
每隔 144分钟抽取 1分钟的水泥( 10袋),r= 10
5 1 3.0)11 4 4 0 101 4 4 0(10 652)1(
2
???????? R rRrδu xx
0069.0)11440 101440(100 0 0 4 8.0)1(
2
??????? R rRrδu pp
5、阶段抽样
? ( 1)概念:抽样时,先抽总体中较大范围的单位,再
从中选的较大范围的单位中抽取较小范围的单位,依此
类推,最后得到样本的基本单位。
? ( 2)抽样平均误差的计算公式(以两阶段为例)
? 同理可以得出成数抽样平均误差的计算公式
? ( 3)例题:某地区有 300户居民,分成 10群,现从 10
群中抽 6群,再从抽中的群中每群抽 2户调查其平均收入,
计算抽样平均误差。资料如下:
? 群 1,300 330(户收入)
n
σ
R
rR
r
δu ix
x
22
)1( ???? )1()1(
22
?
??
?
??
M
mM
n
σ
R
rR
r
δu ix
x
n=rm
315?ix 4 5 0)( 211 ??? xx
2 2 524 5 021 ??σ
群 2:户收入 330 340
3352 ?x 50)( 222 ??? xx 2525022 ??σ
群 3:户收入 370 390
3 8 63 ?x 200)( 233 ??? xx 1 0 022 0 02
3 ??σ群 4:户收入 418 434
4 2 64 ?x 128)( 244 ??? xx 6421 2 824 ??σ
群 5:户收入 462 484
4735 ?x
242)( 255 ??? xx 1 2 122 4 22
5 ??σ
群 6;户收入 507 525
5 1 66 ?x 162)( 266 ??? xx 81216226 ??σ
67102)811216410025225(612 ????????iσ
540751647342638033531561 ???????? )(x
6
)5.40 751 6()5.40 731 5( 222 ????? ?
xδ
7 7 3.19
)
130
230
(
12
67.1 0 2
)
110
610
(
6
25.5 1 6 2
)
1
()
1
(
22
?
?
?
?
?
?
?
?
?
?
?
?
?
M
mM
n
σ
R
rR
r
δ
u
ix
x
(三)影响抽样平均误差的因素
? 1、总体标准差的大小
? 2、样本单位数的多少
? 3、抽样方法的不同
? 4、抽样组织方式的差别
二、抽样极限误差
? 样本指标围绕总体指标左右两侧波动形成的一
定范围。
Ppp ???
Xxx ???
? 三、抽样极限误差与抽样平均误差的关系
? (一)抽样分布
? 据中心极限定理,当总体为正态或总体非正态但 n≥30
时,样本均值的分布趋近于正态分布;当 n足够大时,
样本成数的分布近似为正态分布。
? (二)关系
令
22 )
2
1)(
2
1
)( 2
1
2
1
xx u
Xx
x
xx
x
x euef
????
??
(
???
?
x
x
x u
Δ
u
Xxt ???
2
2
1
)( 2
1 z
z ef
??
? 0)( ?zE
12 ?z?
返回2?z2?z?
第三节 抽样单位数目的确定
? 一、抽样单位数目的计算
(一)简单随机抽样
(二)类型抽样
(三)等距抽样
(四)整群抽样
二、影响 抽样单位数目的因素
返
回
一,抽样单位数目的计算
? (一)简单随机抽样
1、计算公式
( 1)平均数
( 2)成数
nzuz
x
xx
2
22
?
?? ???
2
22
2
x
xzn
?
?
??
22
2
2
22
2
xx
x
zN
Nz
n
?
?
?
?
??
?
2
2
2
)1(
p
PPz
n
?
?
?
?
)1(
)1(
2
2
2
2
2
PPzN
PpNz
n
p ???
?
?
?
?
2、例题
( 1)某类产品根据以往资料的估计,总体方差 5.456千
克,现对一批进行简单随机抽样以推断该批产品的平
均重量,要求可靠程度达到 99.73%,误差范围不超过
0.9千克,需要抽多少样本单位?
按题意
( 2)根据以往资料的估计,该类产品的一等品率为
? 90%,可靠程度仍为 99.73%,误差范围不超过 5%,
推断该批产品的一等品率,需要抽多少样本单位?
按题意
45652 ??xσ 32 ??z
90 ??? x
61)90( 45653 2
2
?? ???n
%90?P
%5?? p
324)050( 10903 2
2
?? ?????n32 ??z
(二)类型抽样
? 1、计算公式
重复抽样 不重复抽样
平均数
成数
2
22
2
x
iz
n
?
?
??
22
2
2
22
2
ix
i
zN
Nz
n
?
?
?
?
??
?
2
2
2
)1(
p
ii ppz
n
?
?
?
?
)1(
)1(
2
2
2
2
2
iip
ii
PPzN
PPNz
n
???
?
?
?
?
2、例题
? 某工厂早、中、晚生产罐头 10000瓶,根据以往资料
的估计平均重量的类型平均方差为 0.549克,合格率
的类型平均方差为 0.02787,要求可靠程度为何 95%,
平均重量的允许误差为 0.11克,合格率的允许误差为
0.025,用类型抽样推断 10000瓶罐头的平均重量和合
格率,需要抽多少样本单位?
据题意
1 7 15 4 90)961()110(1 0 0 0 0 5 4 90)961(1 0 0 0 0 22
2
??????? ?????n
1 0 0 0 0?N 5 4 902 ??iσ 9612 ???z 110 ??? x
0 2 7 8 70)1( ??? ii PP 0 2 50 ??? p
1 7 1)0 2 50( 0 2 7 8 70)961( 2
2
?? ????n
(三)等距抽样
? 计算公式
? ( 1)按有关标志排队
? 同类型重复抽样
? ( 2)按无关标志排队
? 同简单随机不重复抽样
2
22
2
x
iz
n
?
?
??
2
2
2
)1(
p
ii ppz
n
?
?
?
?
22
2
2
22
2
xx
x
zN
Nz
n
?
?
?
?
??
?
)1(
)1(
2
2
2
2
2
PPzN
PpNz
n
p ???
?
?
?
?
(四)整群抽样
1、计算公式
2、例题:某水泥厂对一昼夜所生产的 14400袋( 1440群)
水泥抽样检查其质量,根据以往资料,水泥平均重量的
群间方差为 2.65,允许误差为 1.5公斤;一级品率的群
间方差为 0.00048,允许误差为 0.015,要求可靠程度为
95.45%,需要抽多少样本群?
据题意:
22
2
2
22
2
xx
x
zR
Rz
r
?
?
?
?
??
?
22
2
2
22
2
pp
p
zR
Rz
r
?
?
?
?
??
?
1440?R 22 ??z 6522 ??xδ 51??? x
00 04 802 ??pδ
0 1 50 ??? p
56522)51(1 4 4 0 65221 4 4 0 22
2
?????? ????r
80004802)0150(1440 00048021440 22
2
?????? ????r
二、影响抽样单位数目的因素
? (一)总体各单位的变异程度
? (二)抽样推断的准确程度△
? (三)抽样推断的可靠程度 t
? (四)抽样的组织形式
? (五)抽样的方法
? 返
回
σ
第四节 抽样估计
? 一、估计量的优良标准
? 二、抽样估计的方法
? (一)点估计
? (二)区间估计
? 1、平均数的区间估计
? 2、成数的区间估计
? 3,2个总体平均数之差的估计
4、两个总体比例之差的估计
返回
? 一、估计量的优良标准 (一)无偏性
? 1、概念:如果样本统计量的期望值等于该统计量所估
计的总体参数,这个估计量叫无偏估计量。
? 2、样本平均数是总体平均数的无偏估计量
? 总体变量值有 N个( ),样本容
量为 n个( )。
? ( 1)重复抽样
θθE ?)?(
XxE ?)(
1x
1X 2X ? NX
2x ? nx
? ?)()()(1
)()(
21
21
n
n
xExExE
n
n
xxx
ExE
????
???
?
?
?
XXXX
N
N
X
N
X
N
X
PXxExExE
N
N
N
i
iin
?????
????
???? ?
?
)(
1
111
)()()(
21
21
1
21
?
?
?
X
XXX
n
xE
?
???? )(
1
)(
?
? ( 2)不重复抽样
? ?)()()(1)()( 2121 nn xExExEnn xxxExE ???????? ??
XNXNXNXPXxE NN
i ii
?????? ?
?
111)(
2111 ?
NN
N
i ii PXPXPXPXxE ????? ?? ?221112 )(
NNN
NPPP
N
1
1
11
21 ???
????? ?
?
XNXNXNXxE N ?????? 111)( 212 ?
XxExExE n ???? )()()( 21 ?
XXXXnxE ????? )(1)( ?
NN
N
i ii PXPXPXPXxE ????? ?? ?221113 )(
NNN
N
N
NPPP
N
1
2
1
1
21
21 ????
??????? ?
XxE ?? )( 3
? 3、样本成数是总体成数的无偏估计量
? 4、样本方差是总体方差的无偏估计量
(二)有效性:有两个无偏估计量( ),如果那个
估计量与总体参数间的平均离差小,这个估计量更有效。
和 都是 的无偏估计量,与 间的平均离
差为, 与 间的平均离差为, 所以在估计
( P ) 时,( p ) 更有效。
(三)一致性:随着样本容量的增大,估计量与被估参数
的偏差越来越小。
是 的一致估计量。有限总体时,n最大为 N,这
时 = ;无限总体时,当 n ∞时,与 间的
偏差( )的极限为 0。 p( )是 P( )的一致估计
量。
22 )( σsE ?
PpE ?)(
1?θ 2?θ
1X x X 1X
Xσ x
X
nσ
2X
x
x X
x X
2σ 2S
x X
nσ
2 2S 2σ
二、抽样估计的方法
? (一)点估计
? (二)区间估计
? 1、平均数的区间估计
? (1)样本取自总体方差已知的正态分布 (大、小样本)
xX? pP ?
xu
Xxz ??
xx uzxXuzx 22 ?? ????
返回
nux
?? )
1(
2
?
??
N
nN
nu x
?
? 某制造厂质量管理部门希望估计本厂生产的 5500包
原材料的平均重量,抽出 250包,测得平均重量 65
千克。总体标准差 15千克。总体为正态分布,在置
信水平为 95%的条件下建立这种原材料的置信区间。
? 5500包原材料的平均重量在 63.14~66.86之间。
65?x 15?? 05.0?? 96.12 ??z
86.1652 5 01596.165
2
?????? nzx ??
? (2) 正态总体总体方差未知且小样本
? 因总体方差 未知,只能用 代替,
? 而 n很小 常常与 差异较大,就不再是一
个标准正态分布,而是一个 t分布。
? 例:为了估计一分钟广告的平均费用,抽出 15个电视
台组成样本,得样本均值 10000元,标准差 2000元。
总体近似服从正态分布,在置信水平为 95%的条件下
建立广告平均费用的置信区间。
? 电视台一分钟广告的平均费用在 8894~11106之间。
n
s
xt x???
1 0 0 0 0?x 2 0 0 0?s
14.2)14()1( 025.02 ??? tnt ?
05.0??
11061000015200014.210000
2
?????? nstx ?
2s
n
s
x x??
2?
2? 2s
( 3)正态总体总体方差未知且大样本
? 总体方差 未知,只能用 来代替,因 n很大,
就是 的一个较好的估计量,仍然是一个
近似的标准正态分布。
n
s
xz x???
2? 2s 2s
2?
n
s
x x??
? (4)样本取自总体方差已知的非正态分布
? 某职业介绍所从申请某一职业的 1000名申请者中采
用不重复抽样方式随机抽取了 200名,以此来估计
1000名的平均成绩。 200名的平均分为 78,由以往
经验知总体方差 90,不知总体服从何种分布。在置
信水平为 90%的条件下建立 1000名申请者平均成绩
的置信区间。
? 1000名申请者平均成绩在 77~79之间。
30?n
78?x 90?? 1.0?? 645.1
2 ??z
987.078)
11 0 0 0
2001 0 0 0
(
200
90
645.178
)
1
(
2
2
??
?
?
??
?
?
?
N
nN
n
zx
?
?
? ( 5)样本取自总体方差未知的非正态分布
? 例:某超市通过 100位的样本研究每次购买额,均值
和标准差分别为 80元和 20元,在置信水平为 90%的条
件下建立 100位顾客 购买额 的置信区间。
? 所有顾客 购买额在 76.71和 83.29之间。
30?n
n
s
xz x???
1.0?? 645.1
2 ??z
80?x 20?s
29.38010020645.180
2
?????? nszx ?
2、成数的区间估计
pu
Ppz ?? ?
pp uzpPuzp 22 ?? ?? ????
n
ppu
p
)1( ??
n
ppu
p
)?1(? ??
?例 1:某企业在一项关于职工流动原因的研究中,从原
职工中随机抽取了 200人访问,有 140人离开的原因是
工资太低。以 95%的置信水平对总体这种原因离开的人
员比例进行区间估计。
7.0? ?p 05.0?? 96.1
2 ??z
064.07.0200 )7.01(7.096.17.0)?1(??
2
???????? n ppzp ?
该企业由于工资低离开的职工比例为 63.6% 与 76.4%之间
? 例 2
? 对一批灯泡抽取 1%进行质量检验,结果为平均寿命 1010
小时,抽样平均误差 5.6小时 ;合格率 92%,抽样平均误
差 2.4%。要求在 95%的可靠程度下,对该批灯泡的平均
寿命和合格率进行 区间估计。
? 据题意 1010?x 6.5?xu p=92% %4.2?
Pu
9 7 6.1 0 2 00 2 4.9 9 9
6.51 0 9 61 0 1 06.596.11 0 1 0
??
??????
X
X
%7.96%3.87
%4.296.1%92%4.296.1%92
??
??????
P
P
96.12 ??z
3,2个总体平均数之差的估计
? 我们经常希望对来自 2个不同总体的平均数进行比较
( )。而往往无法直接得到其数据,只能用样
本数据( )对其作出估计。
? ( 1) 2个样本平均数之差的抽样分布
? 如果有 2个正态总体,其平均数分别为 和,方
差分别为 和,那么从 2个正态总体中抽取
的容量分别为 和 的 2个独立样本的平均数之差
? 也一定服从均值为,方差为
? 的正态分布。如果是从 2个非正态总体中抽
? 取 2个独立的样本,只要,根据中心极限定理,
样本平均数之差的抽样分布就会逼近正态分布,
21 ?? ?
21 xx ?
1? 2?
21 xx ?
21? 22?
1n 2n
21 ?? ?
)(
2
2
2
1
2
1
nn
?? ?
30?n
( 2) 2个总体平均数之差的估计
? ?2个正态总体且方差已知
? 例:某银行负责人想知道储户两家银行的钱数,随从
每家各抽取 25个储户。样本平均值为:,
? 。两个总体均服从方差分别为
和 的正态分布。在 95%的置信水平下对总
体平均数之差 进行区间估计。
? 有 95%的把握认为总体平均数之差在 1200.42和 1299.58
之间。
4 5 0 0?Ax
3250?Bx 7 5 0 02 ?A?
8 5 0 02 ?B?
)( BA ?? ?
B
B
A
A
BA nnzxx
22
2
)( ??? ???
96.12 ??z
25
8 5 0 0
25
7 5 0 096.1)3 2 5 04 5 0 0( ???? 58.491 2 5 0 ?
2
2
2
1
2
1
2121 )()(
nn
xx
z
??
??
?
???
?
?两个正态总体方差未知但相等(小样本)
? 首先求出共同方差 的估计值,用加权平均数,
权数是它们的自用度。
? 这时,其统计量 服从自由度为 的 t分布,
标准差为:
? 总体平均数之差 的置信区间为:
2? 2s
2
)2()1(
21
2
22
2
112
??
????
nn
snsns
221 ?? nn
212
2
1
2 11
nnsn
s
n
s ???
2121
2
22
2
11
2
21
21
2
21
11
2
)1()1(
)(
11
)(
nnnn
snsn
txx
nn
stxx
??
??
???
???
???
?
?
)( 21 ?? ?
? 例:某工厂中有两台生产金属棒的机器,分别抽取 11根
和 21根。两个样本的数据为,英寸,
英寸;, 。假定两个总体近似服从
正态分布,且总体方差相等。 在 95%的置信水平下对总
体平均数之差 进行区间估计。)( BA ?? ?
1.6?Ax 95.5?Bx
0 1 8.02 ?As 02.02 ?Bs
0 1 9.0
22111
02.0)121(0 1 8.0)111(
2
)2()1(
21
2
22
2
112
?
??
?????
?
??
???
?
nn
snsn
s
1.015.0
21
1
11
1
0 1 9.00 4 2.2)95.51.96(
11
)(
21
2
21
????????
???
nn
stxx
?
?有 95%的把握认为两台机器所生产金属的平均长度差别
在 0.05和 0.25英寸之间。
?两个正态总体方差未知且不等(小样本)
? 其统计量
? 不服
从自
? 由度为 的 t分布,而服从自由度为
的 t分布,
? 置信区间为:
221 ?? nn
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
)()(
)(
n
ns
n
ns
n
s
n
s
fd
?
?
??
2
2
2
1
2
1
2
21 )( n
s
n
stxx ???
?
2
2
2
1
2
1
2121 )()(
n
s
n
s
xx
t
?
???
??
??
? 例:上例中总体方差不等。
? ? ? ?
23
21
2102.0
11
11018.0
12
02.0
11
018.0
22
2
?
?
?
?
?
?
?
?
?
??fd
07.22 ??t
11.015.021 02.011018.007.2)95.51.6( ??????
?有 95%的把握认为两台机器所生产金属的平均长度差别
?在 0.04和 0.26英寸之间。
?两个非正态总体方差未知(大样本)
2
2
2
1
2
1
221
)( nnzxx ??? ???
?例; A,B两所大学某期末英语考试采用同一试题。 A
校认为该校学生成绩能比 B校高 10分。为了证实,从两
校各抽取一个样本,样本资料如下,人,
人,
分,,, 。在
95%的置信水平下确定两校平均分之差的置信区间。
75?An 80?Bn
6.78?Ax 8.73?Bx 2.8?As 4.7?Bs
96.1205.02 ?? zz ?
5.28.480 4.775 2.896.1)8.736.78(
22
??????
?有 95%的把握认为两校成绩之差在 2.3和 7.3之间。
4、两个总体比例之差的估计
? 在大样本且总体比例不太接近 0或 1时,两个独立样本的
比例之差 的抽样分布近似服从正态分布,其
平均值为,标准差为:
21 ~~ pp ?
21 ~~ pp ?
21 pp ?
2
22
1
11 )1()1(
21 n
pp
n
pp
pp
????
??
2
22
1
11 )
~1(~)~1(~
21 n
pp
n
pps
pp
????
?
2
22
1
11
221
)~1(~)~1(~)~~(
n
pp
n
ppzpp ?????
?
? 例:某企业有两个车间,对 B车间的工人首先进行业务
培训。 3个月后,对两个车间的产品进行检验。从车间
A抽取 200件,从车间 B抽取 220件,废品率为
? 。在 95%的把握程度下构造两车间废品率之差
的置信区间。
%15~ ?Ap
%3~ ?Bp
96.1205.02 ?? zz ?
2
22
1
11
221
)~1(~)~1(~)~~(
n
pp
n
ppzpp ?????
?
054.012.0
220
)03.01(03.0
200
)15.01(15.0
96.1)03.015.0(
??
??
?
??
???
有 95%的把握认为两车间 废品率之差在 6.6%和 17.4%之间,
返回
第五节 假设检验
? 一、假设检验与参数估计的区别
? 二、假设检验的程序
? 三、双侧检验和单侧检验
? 四、一个总体平均数的假设检验
? 五、一个总体成数的假设检验
? 七、两个总体比例之差的假设检验
六、两个总体平均数之差的假设检验
返回
一、假设检验与参数估计的区别
? 参数估计和假设检验是统计推断的两个组成部分,都
是利用样本对总体进行某种推断,但推断的角度不同。
参数估计是在总体参数未知的情况下用样本统计量估
计总体参数。假设检验是先对总体参数提出一个假设,
然后利用样本信息去检验这个假设是否成立,如果成
立,就接受这个假设,否则就放弃。
? 某企业生产了一批灯管,按规定每只灯管的使用寿命
不得低于 1000小时。现从中任意抽取 100只,发现有
6只的使用寿命低于 1000小时,若规定不合格率达到
5%时,灯管就不能出厂,问该批灯管能否出厂。
? 从 2002年的新生儿中随机抽取 30个,测得其平均体
重为此 3210克,而 2001年为 3190克,问新生儿体重
2002年比 2001年有无显著差异。
二、假设检验的程序
? 第一,提出原假设和替换假设
? 把需要通过样本去推断其正确与否的命题称为原假设,
用 表示。上例,
? 与原假设对立的假设是替换假设,:
? 第二,确定适当的检验统计量
? 根据样本的大小、总体方差是否已知,选择适当的检验
统计量。
? 第三,规定显著性水平
? 是当原假设为正确时人们却把它拒绝了的概率或风险。
是由人们确定的,当 取 0.05时,表明作出接受原假
设的决定时,其正确的可能性(概率)为 95%。
? 第四,计算检验统计量的值
? 第五,作出统计决策
α
0H 3 1 9 0?μ
1H 3 1 9 0?μ
0H
α
三、双侧检验和单侧检验
? (一)双侧检验
?,,
? 只要 > 3190 或 < 3190 中有一个成立,就可以否
定原假设。
0H 3 1 9 0?μ 1H 3 1 9 0?μ
μ μ
25.02 ?α25.02 ?α
接受域拒绝域 拒绝域
临界值 临界值
05.0?α
? (二)单侧检验
? 1、左单侧检验
? 按规定灯泡的使用寿命平均低于 1000小时,该批灯泡
不能出厂。已知灯泡的使用寿命服从正态分布,标准
差为 20小时。在总体中随机抽取了 100只,得知样本
均值为 960小时,该批灯泡能否出厂。
?,, <10000H 1 0 0 0?? ?1H
接受域
临界值
拒绝域
05.0??
2、右单侧检验
? 如前例,不合率不能高于 5%。
?,, >5%0H %5?? 1H ?
临界值
接受域 拒绝域
05.0??
四、一个正态总体的假设检验
? (一)总体为正态分布且方差已知
? 例:我国出口凤尾鱼罐头,标准规格是每罐净重 250克,
据以往经验,标准差是 3克。某食品厂生产一批供出口
用的这种罐头,从中抽取 100罐检验,其平均净重 251
克。假定罐头重量服从正态分布,按规定显著性水
平,问这批罐头是否合乎出口标准?
( 1)提出假设, 克,,克
( 2)建立统计量 ~N( 250,) ~N( 0,
1 )
( 3)临界值
( 4)计算统计量的值
05.0??
0H 250?? 1H 250??
x 1003
2
n
xz
?
???
96.1
2
??? ?z
33.3
100
3
250251 ???z
? ( 5)进行决策 拒绝
0-1.96 1.96
拒绝域 拒绝域接受域
33.3
?
0H
(二 )总体为正态分布但方差未知且 n<30
? 例:某汽车轮胎厂声称该厂生产的汽车轮胎平均行使里
程大于 25000公里。现对 15个轮胎作了试验,得到平均
行使里程为 27000公里,标准差 5000公里,假定轮胎的
行驶里程数近似服从正态分布,我们能否得出结论,该
厂的产品与该厂声称的标准相符?( )
?,,, >2500
05.0??
0H 2 5 0 0?? 1H ?
55.1
15
5 0 0 0
2 5 0 0 02 7 0 0 0 ?????
n
s
xt ?
76.1)14()1( 05.0 ??? tnt ?
1.76
接受域 拒绝域
(三 )总体为非正态分布
? 1,总体的标准差已知
? 2,总体的标准差未知
? 某房产经纪人称邻近地区房屋的平均价值低于 480000
元。现抽查了 40间房屋,平均价值 450000元,标准差
为 120000元。在 0.05的置信水平下,这些数据能否支持
这位经纪人的说法?
?,,, μ <480000
30?n
n
xz
?
???
30?n ns
xz ???
0H 1H480000??
581.1
40
120000
480000450000 ??????
n
s
xz ?
6 4 5.1??? ?z
五、一个总体比率的假设检验
? 例,一项调查结果表明某市老年人口比重为 14.7%,该
市
? 老年人口研究会为了检验该项调查是否可靠,随机抽选
了 400名居民,发现其中有 57人年龄在 65岁以上。调查
结果是否支持该市老年人口比重为 14.7%的看法?
?, p=14.7%,
05.0??
0H %7.14?p1H %25.14
400
57? ??p
254.0
400
%)7.141%(7.14
%7.14%25.14
)1(
?
00
0 ??
?
??
?
??
n
pp
ppz
96.1
2
???z
六、两个总体平均数之差的假设检验
? (一 )两个正态总体且方差已知 服从标准正态分布。
例:有两种方法可用于制造两种以抗拉强度为重要特征
的产品,经验表明,用这两种方法生产出来的产品的抗
拉强度都近似服从正态分布。 千克,千克。
现分别抽取 12和 16,得到样本均值分别为 40千克和 34
千克。想知道这两种方法所生产产品的抗拉强度是否相
同。( )
?,,, 27.2
16
64
12
36
0)344()()(
2
2
2
1
2
1
2121 ?
?
??
?
?
???
?
nn
xx
z
??
??
61 ?? 82 ??
05.0??
0H 021 ?? ?? 1H 021 ?? ??
96.1
2
???z
(二)两个正态总体方差未知(大样本)
2
2
2
1
2
1
2121 )()(
n
s
n
s
xx
z
?
???
?
??
(三)两个正态总体方差未知但相等(小样本)
2
2
1
2
2121 )()(
n
s
n
s
xx
t
?
???
?
??
2
)2()1(
21
2
22
2
112
??
????
nn
snsns
?已知某年来自城市和农村中考考生的成绩都服从正态分
布且方差基本相等。抽样资料城市:,,
? 。农村为:,, 。
能否说明城市考生的平均成绩比农村考生的平均成绩高。
?,,,0H 1H021 ?? ?? 021 ?? ??
171 ?n
152 ?n
5451 ?x
4 9 52 ?x501 ?s 552 ?s
274521517 55)115(50)117(
22
2 ?
??
??????s
69.2
15
2 7 4 5
17
2 7 4 5
0)4 9 55 4 5( ?
?
???t
7.1)30(05.0 ?t
(四)两个正态总体方差未知且不等(小样本)
2
2
2
1
2
1
2121 )()(
n
s
n
s
xx
t
?
???
??
??
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
)()(
)(
n
ns
n
ns
n
s
n
s
fd
?
?
??
?某纺织厂可以从两个地区购买原纱。如果有理由认为 A地
区的产品(价格低)抗断强度不低于 B地区的产品,该厂
将购买 A地区的产品。现各抽取一个随机样本,结果
为:,, ;,,
? 。假定抗断强度近似服从正态分布,总体方差
不等。在 水平下,你是否建议纺织厂购买价格
低的原纱。
10?An 12?Bn94?Ax 98?Bx142 ?As
92 ?Bs
05.0??
0H 1H:,, 0?? BA ?? 0?? BA ??
73.2
12
9
10
14
0)9894( ??
?
????t
19
12
)129(
10
)1014(
)
12
9
10
14
(
22
2
?
?
?
??fd
73.1)19(05.0 ??? t
(五)两个非正态总体方差已知(大样本)
2
2
2
1
2
1
2121 )()(
nn
xx
z
??
??
?
???
?
(六)两个非正态总体方差未知(大样本)
? 例:一个样本由 A居民区的 100个家庭组成,另一个样
本由 B居民区的 150个家庭组成。两个样本关于居住时
间的信息为,个月,; 个
月,。能否说明 A区平均居住时间比 B区短?
( )
?,,,
05.0??
33?Ax 49?Bx9002 ?As 1 0 5 02 ?Bs
BA ?? ? BA ?? ?0H 1H 0.4
1 5 0
1 0 5 0
1 0 0
9 0 0
0)4933()()(
2
2
2
1
2
1
2121 ??
?
??
?
?
???
?
n
s
n
s
xx
z
??
6 4 5.105.0 ??? z
七、两个总体比例之差的假设检验
? (一)检验两个总体比例之差是否为 0
2
22
1
11
2121
)1()1(
)()~~(
n
pp
n
pp
pppp
z
?
?
?
???
?
21
21
nn
xxp
?
??
)
11
)(1(
)()~~(
)1()1(
)()~~(
21
2121
21
2121
nn
pp
pppp
n
pp
n
pp
pppp
z
??
???
?
?
?
?
???
?
?例,甲、乙两公司属于同一行业,现调查工人愿意增
加福利还是工资。在甲公司 150名工人中有 75人愿意
增加工资,乙公司 200名工人中有 103人愿意增加工资,
在 的显著性水平下,可以判断这两个公司中
愿意增加工资的工人所占比例不同吗?
01.0??
0H 1H001 ?? pp 001 ?? pp
5.015075~ 1 ??p 515.0
200
103~
2 ??p 5 0 9.02 0 01 5 0
1 0 375 ?
?
??p
278.0
)
200
1
150
1()509.01(509.0
515.050.0 ??
????
??z
58.22 ??? ?z
(二)检验两个总体比例之差为某一常数
? 例:某厂检验员认为该厂 A车间的产品一级品率比 B车
间的产品一级品率至少高 5%,现从 A车间抽取 150,
一级品 113;从 B车间抽取 160,一级品 104。检验员
的观点对吗?( )05.0??
0H 1H 05.0?? BA pp
0 2 7.1
1 6 0
)65.01(6 5 0.0
1 5 0
)7 5 3.01(7 5 3.0
05.0)6 5 0.07 5 3.0(
)
~
1(
~
)
~
1(
~
)
~~
(
0
?
??
?
??
??
?
?
?
?
??
?
B
BB
A
AA
BA
n
pp
n
pp
dpp
z
05.0?? BA pp
7 5 3.01 5 01 1 3~ ??Ap 65.0
1 6 0
1 0 4~ ??
Bp
645.1??z
返回
? 实训练习
? 【 基本训练 】
? 单项选择
? 1.抽样调查的目的在于( )
? ①了解总体的基本情况 ②用样本指标推断总体指标
? ③对样本进行全面调查 ④了解样本的基本情况
? 2.抽样调查所特有的误差是( )
? ①由于样本的随机性而产生的误差 ②登记误差
? ③系统性误差 ④ ①②③都错
? 3.抽样调查和重点调查的主要区别是( )
? ①选取调查单位的方式不同 ②调查的目的不同
? ③调查的单位不同 ④两种调查没有本质区别
? 4当可靠度大于 0.6827时,抽样极限误差( )
? ①大于抽样平均误差 ②小于平均误差
? ③等于抽样平均误差 ④与抽样平均误差的大小关系依样本容量而定
? 5.有一批灯泡共 1000箱,每箱 200个,现随机抽取 20箱并检查这些箱中全部灯泡,此种检验属于( )
? ①纯随机抽样 ②类型抽样 ③整群抽样 ④等距抽样
? 6.当总体单位不很多且各单位间差异较小时宜采用( )
? ①类型抽样 ②纯随机抽样 ③整群抽样 ④两阶段抽样
? 7.在抽样推断中,抽样误差是( )
? ①可以避免的 ②可避免且可控制
? ③不可且无法控制 ④不可避免但可控制
? 8.在其他条件不变的情况下,抽样单位数越多,则( )
? ①系统误差越大 ②系统误差越小
? ③抽样误差越大 ④抽样误差越小
? 9.假定 10亿人口大国和 100万人口小国的居民年龄变异程度相同,现在各自用重复抽样方法抽取本国的 1‰ 人口设计者,则抽样误差( )
? ①两者相等 ②前者大于后者
? ③前者小于后者 ④不能确定
? 10.某地有 2万亩稻田,根据上年资料得知其中平均亩产的标准差为 50公斤,若以 95.45%的概率保证平均亩产的误差不超过 10公斤,应抽
选( )亩地作为样本进行抽样调查。
? ① 100 ② 250 ③ 500 ④ 1000
? 多项选择
? 1.抽样调查的特点有( )
? ①按随机原则抽取样本单位 ②把握程度大小
? ③以样本指标推断总体指标 ④抽样误差可以计算和控制
? ⑤以上都对
? 2.抽样调查适用于下列哪些场合( )
? ①不宜进行全面调查而又要了解全面情况 ②工业产品质量检验
? ③调查项目多、时效性强 ④只需了解一部分单位的情况
? ⑤适用于任何调查
? 3.确定样本容量时应考虑的因素有( )
? ①极限误差大小 ②全面性检验
? ③取样方式 ④抽样的组织形式
? ⑤被研究标志变异程度
? 4.区间估计中总体指标所在范围( )
? ①是一个可能范围 ②是绝对可靠的范围
? ③不是绝对可靠的范围 ④是有一定把握程度的范围
? ⑤是毫无把握的范围
? 5.概率度是指( )
? ①置信概率 ②以抽样平均误差为单位
? ③是样本指标与总体指标的绝对误差范围
? ④表示极限误差是平均误差的几倍 ⑤是表明抽样估计可靠程度的一个参数