第六章 抽样与抽样估计第一节 抽样调查的基本概念第二节 抽样误差第三节 参数估计基本方法第四节 抽样调查的组织形式及抽样估计抽样估计在统计方法中的地位统计方法描述统计 推断统计抽样估计 假设检验统计推断的过程样本总体样本统计量例如:样本均值、比例、方差抽样推断 —— 是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断 。
抽样推断的特点:
它是由部分推断整体的一种认识方法
抽样推断建立在随机取样的基础上
抽样推断运用概率估计的方法 。
抽样推断的误差可以事先计算并加以控制参数估计 参数估计是依据所获得的样本观察资料,对所研究现象总体的水平、
结构、规模等数量特征进行估计。
假设检验 假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。
抽样推断的内容第一节 抽样调查的基本概念一,样本及其代表性二,参数和估计量三、样本可能数目四、抽样框与抽样单位
样本及其代表性 (概念要点)
样本( sample),又称样本总体或子样,就是从总体中随机抽取出来并用来代表总体的那部分单位所构成的新的小总体或集合体。对于一个具体的抽样问题,总体是唯一确定的,而样本则不是唯一的。
影响样本代表性的因素:
1、总体分布的离散程度的大小。(用方差 δ 表示)
2、抽样单元数的多少 (或称样本容量的大小 )。
3、抽样方法(重复抽样和不重复抽样)。
参数与统计量
在统计学中约定俗成,将用来描述总体的特征的综合指标称为 总体的参数 ;
将用来描述样本特征的指标称为 样本统计量 。
总体参数 样本统计量总体单位数 = N
总体平均数 = X
总体成数 = p
总体标准差 = δ
总体方差 = δ
样本单位数 = n
样本平均数 = x
样本成数 = P
样本标准差 = S
样本方差 = S
参数参数研究总体中的数量标志总体平均数总体方差
X= ∑ XN
X= ∑ XF∑F
Σ ( X-X)
N

=2
Σ ( X-X) F
Σ F

=2
研究总体中的品质标志总体成数成数方差 σ2= P(1-P)
P =
N1
N
(只有两种表现)
统计量研究数量标志样本平均数
x = ∑xn
x = ∑xf∑f
样本标准差

n
xx 2?

f
fxx
x
2
研究品质标志样本成数成数标准差
np =
n
ppp 1?
1,样本可能数目:又称样本个数,是指从一个有 N
个单位的总体中抽取容量为 n的样本时,有可能出现的所有样本的个数,是一种理论概率分布。
2,样本个数:一个样本包含的单位数。用,n”表示。
一般要求 n ≥30
3,在总体单位数 N和样本容量 n一定的条件下,样本可能数目与抽样方法有关。而在同一抽样方法下,
又由于对被抽中的几个单位考虑顺序与否,从而有不等的样本可能数目。
样本可能数目可能样本数目的计算公式考虑顺序不考虑顺序不重复抽样 重复抽样
!
( ) !
n
N
NA
Nn
nnNBN?
!
! ( ) !
n
N
NC
n N n
( 1 ) !
! ( 1 ) !
nn
NN
NnDD
nN

抽样框与抽样单位
抽样框:为便于抽样工作的组织,在抽样前在可能条件下编制的用来进行抽样的记录或表明总体所有抽样单元的框架。抽样框可以是一份清单(名单抽样框)、
一张地图(区域抽样框),它是设计和实施随即抽样所必备的基础条件。
一个理想的抽样框的要求是,它应该尽可能地与目标总体相一致。
一般而言,如果总体中的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,
则该清单就是一个完备的抽样框。在完备的抽样框中,
每个元素必须且只能同一个号码对应。
第二节 抽样误差一,抽样误差的概念二,抽样平均误差三、抽样极限误差四、抽样误差的概率度一、抽样误差的概念
抽样误差,是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标与总体指标之间的绝对离差 。
影响抽样误差大小的因素:
1)总体各单位标志值的差异程度。
2)样本的单位数。
3)抽样方法及抽样调查的组织形式。不同的抽样组织形式就有不同的抽样误差。而且同一种组织形式的合理程度也影响抽样误差。
二、抽样平均误差
多数样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽样平均误差就是将所有的误差综合起来,再求其平均数。
抽样平均误差,是反映抽样误差一般水平的指标。
二、抽样平均误差
通常用抽样平均数的标准差或抽样成数的标准差来作为衡量其抽样误差一般水平的尺度 。
按照标准差的一般意义,抽样平均数(或抽样成数)的标准差是按抽样平均数(或抽样成数)与其平均数的离差平方和计算的,但由于抽样平均数的平均数等于总体平均数,而抽样成数的平均数等于总体成数,抽样指标的标准差恰好反映了抽样指标和总体指标的平均离差程度。
设以 表示抽样平均数的平均误差,表示抽样成数的平均误差,M表示全部可能的样本数目,则:
抽样平均误差 (公式)
2()
x
xX
M

2()
p
pP
M

x? p?
注:以上公式中的关键是无法得到 总体平均数 和总体成数,所以按上述公式来计算抽样平均误差实际上是不可能的。
抽样平均数的平均误差
1、在重复抽样的条件下,抽样平均数的平均误差与总体的变异程度以及样本容量大小两个因素有关:
2、在不重复抽样的条件下,抽样平均数的平均误差不但和总体变异程度、样本容量有关,而且还与总体单位数有关:其中,为修正因子。
2
x nn

2
() 1x NnnN
()1NnN
抽样成数的平均误差,表明各样本成数和总体成数绝对离差的一般水平 。
1、在重复抽样的条件下:
抽样成数的平均误差
(1 )
p
pp
nn

( 1 ) ()
1p
p p N n
nNn

2、在不重复抽样的条件下:
① 样本平均数的平均数等于总体平均数 。
② 抽样平均数的标准差仅为总体标准差的
③ 可通过调整样本单位数来控制抽样平均误差 。
抽样平均误差所反映的内容
1n
1
n
例题:假定抽样单位数增加 2 倍,0.5
倍时,抽样平均误差怎样变化?
解,抽样单位数增加 2 倍,即为原来的 3 倍则:
抽样单位数增加 0.5倍,即为原来的 1.5倍则:
5 7 7.0313 nx
8 1 6 5.0
5.1
1
5.1

nx

即,当样本单位数增加 2倍时,抽样平均误差为原来的 0.577倍 。
即,当样本单位数增加 0.5倍时,抽样平均误差为原来的 0.8165倍 。
例题:假定抽样单位数增加 2 倍,0.5
倍时,抽样平均误差怎样变化?
解,抽样单位数增加 2 倍,即为原来的 3 倍则:
抽样单位数增加 0.5倍,即为原来的 1.5倍则:
5 7 7.0313 nx
8 1 6 5.0
5.1
1
5.1

nx

即,当样本单位数增加 2倍时,抽样平均误差为原来的 0.577倍 。
即,当样本单位数增加 0.5倍时,抽样平均误差为原来的 0.8165倍 。
三、抽样极限误差
在抽样估计时,应根据所研究对象的变异程度和分析目的要求确定可允许的误差范围,我们把这种可允许的最大误差范围称为抽样极限误差。
设 Δ x,Δ p分别表示抽样平均数极限误差和抽样成数极限误差。则有,
x
p
xX
pP

xx
pp
x X x
p P p

区间 称为平均数的估计区间或称平均数的置信区间。区间 称为成数的估计区间或称成数的置信区间。
(,)xxxx
(,)pppp
四、抽样极限误差的概率度
基于概率估计的要求,抽样极限误差通常需要以抽样平均误差 或 为标准单位来衡量。把极限误差 或 分别除以 或 的得相对数 t,表示误差范围为抽样平均误差的 t倍。 t是测量估计可靠程度的一个参数称为 抽样误差的概率度 。
x? p?
x? p? x? p?
xxt ppt
第三节 参数估计的方法一,总体参数的点估计二,总体参数的区间估计总体参数的点估计点估计
(概念要点)
从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计
例如,用样本均值 作为 总体未知均值的估计值就是一个点估计
点估计没有给出估计值接近总体未知参数程度的信息
点估计的方法有矩估计法,顺序统计量法,
最大似然法,最小二乘法等
1,用于估计总体某一参数的随机变量
– 如样本均值,样本比例,样本中位数等
– 例如,样本均值就是总体均值?的一个估计量
– 如果样本均值?x = 3,则 3 就是? 的 估计值
理论基础是抽样分布估计量
(概念要点)
二战中的点估计估计量的优良性准则
(无偏性)
无偏性,估计量的数学期望等于被估计的总体
参数
P( X )
X
CA
无偏 有偏估计量的优良性准则
(有效性)
A
B
中位数的抽样分布均值的抽样分布
X
P(X )
有效性,一个方差较小的无偏估计量称为一个更有效的估计量 。 如,与其他估计量相比
,样本均值是一个更有效的估计量估计量的优良性准则
(一致性)
一致性,随着样本容量的增大,估计量越来越接近被估计的总体参数
A
B
较小的样本容量较大的样本容量
P(X )
X
总体参数的区间估计总体参数的区间估计
(抽样误差范围的概率保证度)
在确定允许的抽样误差范围后,从主观愿望说,希望抽样调查的结果,样本指标的估计值都能够落在允许的误差范围内,但这并非都能实现的事情。
由于抽样指标值随着样本的变动而变动,它本身是个随机变量,因而抽样指标和总体指标的误差仍然是个随机变量,不能保证误差不超过一定范围的这件事是必然的,而只能给以一定程度的概率保证。
抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。
落在总体均值某一区间内的样本
X
95.45% 的样本
99.73% 的样本
x- 3?
68.27%的样本
x- 2? x-? X+ 3?X+2?X+?x
总体参数的区间估计 (概念)
总体参数区间的基本特点:是根据给定的概率保证程度的要求,利用实际抽样资料,指出总体被估计值的上限和下限,即指出总体参数可能存在的区间范围。
换句话说,对于总体的被估计指标 X,找出样本的两个估计量 x1和 x2,使被估计指标 X落在区间( x1,x2)
内的概率 1-α,( 0<α <1),为已知的。即 P
( x≤X≤x)=1 一 α 是给定的。我们称区间( x1,x2 )
为总体指标 X的置信区间,其估计置信度为 1一 α,
称 α 为显著性水平,x1是置信下限,x2是置信上限。
已知抽样误差范围,求概率保证度
计算 步骤是:
首先抽取样本,计算抽样指标(如计算抽样平均数或抽样成数),作为相应总体指标的估计值,并计算样本标准差以推算抽样平均误差。
其次,根据给定的抽样极限误差范围,估计总体指标的下限和上限。
最后,将抽样极限误差除以抽样平均误差求出概率度 t值,再根据 t值查《正态分布概率表》求出相应的置信度 F(t),并对总体参数作区间估计。
[例 1] 对某型号的电子元件进行耐用性能检查
,抽查的资料分组列表如下,要求耐用时数的允许误差范围 Δ x=10.5小时,试估计该批电子元件的平均耐用时数 。
已知抽样误差范围,求概率保证度 (应用)
耐用时数 组中值 元件数
900以下
900-950
950-1000
1000-1050
1050-1100
1100-1150
1150-1200
1200以上
875
925
975
1025
1075
1125
1175
1225
1
2
6
35
43
9
3
1
合计 100
1,计算抽样平均数和标准差
2、根据给定的 Δχ=10.5小时,计算总体平均数的上下限,
下限 = 上限 =
3、根据 t=,查概率表得置信度
F(t)=0.9545
我们可以作如下估计,即可以概率 95.45%的保证程度,估计该批电子元件的耐用时数在 1045-1066小时之间。
1 0 5 5,5xfx f
2()
5 1,9 1x x fS f
5 1,9 1 5,1 9 1
100x n

1 0 5 5,5 1 0,5 1 0 4 5xx 1 0 5,5 1 0,5 1 0 6 6xx
10.5 2
5.191x x
x?

已知给定的置信度要求,推算极限误差的可能范围
计算 步骤是:
首先抽取样本,计算抽样指标,作为相应总体指标的估计值,并计算样本标准差以推算抽样平均误差。
其次,根据给定的置信度 F(t)要求,查表求得概率度 t值。
最后,根据概率度 t和抽样平均误差来推算抽样极限误差的可能范围,再根据抽样极差求出被估计总体措标的上下限,对总体参数作区间估计。
例:某纱厂某时期内生产了 10万个单位的纱,按纯随机抽样方式抽取 2000个单位检验,检验结果合格率为
95%,废品率为 5%,试以 95%的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围?
已知,100000?N 2 0 0 0?n
%95?p %51 p
95.0?tF
96.1?t

N
n
n
pp
p 1
1? %48.0
1 0 0 0 0 0
2 0 0 01
2 0 0 0
05.095.0

%94.0%48.096.1 pp t?
区间下限,%06.940 0 9 4.095.0
pp
区间上限,%94.950 0 9 4.095.0
pp
第四节 抽样调查的组织形式及抽样估计一,简单随机抽样二,分层抽样三、整群抽样四、等距抽样五、多阶抽样