第一节 抽样推断概述第三节 参数估计第二节 随机抽样的概率分布第四节 抽样设计第六章 抽样推断第一节 抽样推断概述指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会抽样推断按照 随机原则 从全部研究对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。
统计推断全及总体指标:
参数(未知量)
样本总体指标,统计量(已知量 )
抽样推断
,统计学,第六章 抽样推断随机原则的实现抽签法是将总体中每个单位的 编号 写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。
随机数表法 将总体中每个单位 编上号码,然后使用随机数表,查出所要抽取的调查单位。
计算机模拟法是将随机数字编制为程序存储在 计算机 中,需要时将总体中各单位编上号码,启用 随机数字发生器 输出随机数字,然后从总体中找到相应总体单位形成样本。
并非所有的抽样估计都按随机原则抽取样本,也有 非随机抽样总体随机样本非随机样本与总体分布特征相同与总体分布特征不同
,统计学,第六章 抽样推断
按 随机原则 抽取样本单位
以 样本 的数量特征推断 总体 的数量特征
抽样推断产生 抽样误差,但抽样误差可以事先 计算并控制抽样推断的特点
,统计学,第六章 抽样推断与全面调查相比,抽样调查既节省了人力、物力、
财力和时间,又达到了认识总体数量特征的目的。
我国在 1994年确立了以周期性普查为基础,以经常性抽样调整为主体,同时辅之以 重点调查、科学核算等综合运用的统计调查方法体系。
不可能 进行全面调查时
不必要 进行全面调查时
来不及 进行全面调查时
对全面调查资料进行 补充修正 时抽样推断的应用
,统计学,第六章 抽样推断抽样推断的理论基础大数定律中心极限定律表明大量随机观象 平均结果 具有 稳定性 的性质。 大数定律论证了如果独立随机变量总体存在有限的平均数和方差,则对于充分大的样本可以近乎 100%的概率,期望样本平均数与总体平均数的绝对离差 为任意小。
1)(lim

XxP
n
如果变量总体存在有限的平均数和方差,那么不论这 个总体的分布如何,
随着样本容量的增加,样本平均数的分布,便趋近于 正态分布 。
抽样推断的基本概念全及总体抽样总体又称总体或母体,是所要认识研究对象的全体,它由具有某种共同性质或特征的单位所组成。常用 N表示全及总体的单位数目。
又称样本或子样,是指从全及总体中按照随机原则抽取的那部分个体的组合。 抽样总体的单位数称为 样本容 量,
通常用 n表示。 1< n< N。
例如,在 100万户居民中,随机抽取 1000户居民进行家庭收支情况调查,其中的 100万户居 民就是全及总体,而被抽中的 1000户居民则构成抽样总体。
n≥30称为大样本,n< 30称为小样本,n/N称为抽样比,
设总体中 个总体单位某项标志的标志值分别为,其中具有某种属性的有 个单位,不具有某种属性的有 个单位,则
N
NXXX,,21?
0N
1N
⒈ 总体平均数(又叫总体均值):

m
i
i
m
i
ii
N
i
i
f
fX
X
N
X
X
1
11 或根据全及总体各个单位的标志值或标志特征所计算的反映总 体某种属性的综合指标,又称 总体参数 。
全及指标
,统计学,第六章 抽样推断

m
i
iim
i
i
N
i
i fXX
f
XX
N 1
2
1
1
2 11

⒉ 总体单位标志值的标准差:
⒊ 总体单位标志值的方差,

m
i
iim
i
i
N
i
i fXX
f
XX
N 1
2
1
2
1
2
2 11

,统计学,第六章 抽样推断
PNNQNNP 1,01
⒋ 总体成数:
⒌ 总体是非标志的标准差:
PQPPP 1?
⒍ 总体是非标志的方差:
PQPPP 12?
有最大值时,当 PQP?5.0
,统计学,第六章 抽样推断设样本中 个样本单位某项标志的标志值分别为,其中具有和不具有某种属性的样本单位数目分别为 和 个,则
n
nxxx,,21?
0n1n
⒈ 样本平均数(又叫样本均值):

m
i
i
m
i
ii
n
i
i
f
fx
x
n
x
x
1
11 或指根据抽样总体各个单位的标志值或标志特征计算的综合指标,又被称为 统计量,它是 随机变量。
抽样指标
,统计学,第六章 抽样推断
⒉ 样本单位标志值的标准差:
⒊ 样本单位标志值的方差:

m
i
iim
i
i
n
i
i
fxx
f
sxx
n
s
1
2
1
1
2
1
1
1
1


m
i
iim
i
i
n
i
i
fxx
f
sxx
n
s
1
2
1
2
1
2
2
1
1
1
1
或为自由度为 的无偏估计2?
为 的无偏估计?
pnnqnnp 1,01
⒋ 样本成数:
⒌ 样本单位是非标志的标准差:
pq
n
npp
n
ns
p 111
⒍ 样本单位是非标志的方差:
pq
n
npp
n
ns
p 111
2

为 的无偏估计
2P?
为 的无偏估计 P
,统计学,第六章 抽样推断抽样方法的分类重复抽样从总体 N个单位中随机抽取一个样本容量为 n的样本,每次从总体中抽取一个,
并把结果登记下来,又放回总体中重新参加下一次的抽选。又称 放回抽样不重复抽样 每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称 不放回抽样,
总体单位数 N不变,同一单位可能多次被抽中。
总体单位数减少 n,同一单位只可能被抽中一次。
根据取样方式不同,可分为:
,统计学,第六章 抽样推断抽样方法的分类根据对样本的要求不同,可分为:
考虑顺序抽样不考虑顺序抽样考虑各单位的中选顺序。
ABC≠CBA
不考虑各单位的中选顺序。
ABC= CBA
考虑顺序的重复抽样不考虑顺序的不重复抽样考虑顺序的不重复抽样不考虑顺序的重复抽样综合起来共有四种抽样方法
,统计学,第六章 抽样推断样本的可能数目考虑顺序的不重复抽样不考虑顺序的不重复抽样考虑顺序的重复抽样不考虑顺序的重复抽样
)!/(! nNNp nN
nN
n
nNC 1
把填湖南风采 35选 7福利彩票号码看作一次抽样,则它属于哪一种抽样?中特等奖的概率是多少?( 0— 9选 6呢?)
不考虑顺序的不重复抽样,
n
NC
8 3 4 7 6 8 0/1/1 736?C
,统计学,第六章 抽样推断样本的概率分布把某一抽样方法的全部可能的样本指标与其相应的概率排列起来,就得到样本的概率分 布。
若将样本指标的取值分别记为 其相应的概率记为 P1,P2,…P n,将它们按顺序排列起来,
可得如下概率分布表。
,,.,,,21 nxxx
x 1x 2x nx
……
nP
)(xP
……
nP1P 2P
,统计学,第六章 抽样推断第二节 随机抽样的概率分布样本统计量 总体未知参数样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量抽样分布 样本统计量所有可能值的概率分布主要样本统计量平均数 比率(成数) 方差分布的形状及接近总体参数的程度学生 A B C D E F G
成绩 30 40 50 60 70 80 90
按随机原则抽选出4名学生,并计算平均分数。
平均数的抽样分布
0
1
2
3 0 4 0 5 0 6 0 7 0 8 0 9 0
样 本 均 值 样 本 均 值 样 本 均 值
ABCD
ABCE
ABCF
ABCG
ABDE
ABDF
ABDG
ABEF
ABEG
ABFG
ACDE
ACDF
45
47.5
50
52.5
50
52.5
55
55
57.5
60
52.5
55
ACDG
ACEF
ACEG
ACFG
ADEF
ADEG
ADFG
AEFG
BCDE
BCDF
BCDG
BCEF
57.5
57.5
60
62.5
60
62.5
65
67.5
55
57.5
60
60
BCEG
BCFG
BDEF
BDEG
BDFG
BEFG
CDEF
CDEG
CDFG
CEFG
DEFG
62.5
65
62.5
65
67.5
70
65
67.5
70
72.5
75
样本均值 45 47.5 50 52.5 55 57.5 60
出现次数 1 1 2 3 4 4
样本均值 62.5 65 67.5 70 72.5 75
出现次数 4 4 3 2 1 1
0
1
2
3
4
5
6
4 5 5 0 5 5 6 0 6 5 7 0 7 5
0
1
2
3 0 4 0 5 0 6 0 7 0 8 0 9 0
二者均值相等样本均值 45 47.5 50 52.5 55 57.5 60
出现次数 1 1 2 3 4 4 5
离 差 -15 -12.5 -10 -7.5 -5 -2.5 0
样本均值 62.5 65 67.5 70 72.5 75
出现次数 4 4 3 2 1 1
离 差 2.5 5 7.5 10 12.5 15
学生 A B C D E F G
成绩 30 40 50 60 70 80 90
离差 -30 -20 -10 0 10 20 30
20
07.71 0 0
2
1
4
20
17
47
1
2
2

nN
nN
x
,统计学,第六章 抽样推断
07.7?x?
平均数的抽样分布
全部可能样本平均数的均值等于总体均值,即:
从非正态总体中抽取的样本平均数当 n
足够大时其分布接近正态分布。
从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。
样本均值的标准差为总体标准差的 。n1
)()( XxXxE
),(~ 2 nXNx?
,统计学,第六章 抽样推断比率的抽样分布

5)1(,5
)1,(~

pnnp
nPPPNp
全部可能样本比率的均值等于总体比率,
即:
从非正态总体中抽取的样本比率,当 n
足够大时其分布接近正态分布。
从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。
样本比率的标准差为总体标准的 。
)()( PpPpE
n
1
,统计学,第六章 抽样推断比率的抽样分布教师 是否博士
A 是
B 是
C 否
D 否
E 否
F 是具有博士学位的比率:
P= 0.5
比率的标准差:
= 0.5
从总体中按重复抽样方法随机抽取4人,计算其比率P和标准差
p?
,统计学,第六章 抽样推断比率的抽样分布样 本 比率 离差 样 本 比率 离差
ABCD
ABCE
ABCF
ABDE
ABDF
ABEF
ACDE
ACDF
0.5
0.5
0.75
0.5
0.75
0.75
0.25
0.5
0
0
0.25
0
0.25
0.25
-0.25
0
ACEF
ADEF
BCDE
BCDF
BCEF
BDEF
CDEF
0.5
0.5
0.25
0.5
0.5
0.5
0.25
0
0
-0.25
0
0
0
-0.25
P
n
p
p
5.0
p?
5
2
4
5.05.0
1
)1(
1 5 8 1.0
15
375.0)(
2

N
nN
n
PP
f
fpp
p
,统计学,第六章 抽样推断全部可能样本比率的均值等于总体比率,即:
从非正态总体中抽取的样本比率当 n
足够大时其分布接近正态分布。
从正态总体中抽取的样本比率不论容量大小其分布均为正态分布。
样本比率的标准差为总体标准差的 。n1
)()( PpPpE
比率的抽样分布
5)1(
5
))1(,(~

pn
np
nPPPNp
,统计学,第六章 抽样推断学生 A B C D
成绩 60 70 80 90
均值?= 75
方差?2 = 125
从中按重复抽样方式抽取2人,
计算样本的均值 及方差 S2 。
x
方差的抽样分布 A
60
B
70
C
80
D
90
A
60
60 60
60
00
60 70
65
2550
60 80
70
100200
60 90
75
225450
B
70
7 60
65
2550
70 70
70
00
70 80
75
2550
70 90
80
100200
C
80
80 60
70
100200
80 70
75
2550
80 80
80
00
80 90
85
2550
D
90
90 60
75
225450
90 70
80
100200
90 80
85
2550
90 90
90
00
n
x
x
n
xx
S n?
2
2 )(
1
)( 22
1?

n
xx
S n
5.62)(
2
2
m
S
SE nn
125)(
2
12
1

m
S
SE
n
n
1252
,统计学,第六章 抽样推断
0
1
2
3
4
5
6
7
1 0 0 2 0 0 3 0 0 4 0 0
2
1?nS
2
nS
,统计学,第六章 抽样推断
X
5
10
样本抽样分布原总体分布
x
X
,统计学,第六章 抽样推断抽样误差
167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM
170CM 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM
平均身高 =169.8CM
平均身高 =174.6CM
总平均身高 =168.6CM
,统计学,第六章 抽样推断第三节 参数估计也叫抽样估计,就是根据 样本指标 数值对 总体指标 数值作出估计或推断。
参数估计通常,把用来估计总体特征的样本指标叫 估计量或统计量,待估计的总体指标叫 总体参数 。
特点
1、它在逻辑上运用 归纳推理 而不是演绎推理。
2、在方法上运用不确定的 概率估计方法,
而不是运用确定的数学分析方法。
3、抽样估计存在 抽样误差 。
点估计从总体中抽取一个随机样本,计算与总体参数相应的样本统计 量,然后把该统计量视为总体参数的估计值,称为参数的点估计。
简单,具体明确优点缺点 无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况
的抽样分布x
点估计的最大好处:给出确定的值点估计的最大问题:无法控制误差
,统计学,第六章 抽样推断问题:
第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数?
估计值的优良标准第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?
o
e
m
m
x
估计值的优良标准:
无偏性、有效性、一致性
,统计学,第六章 抽样推断抽样估计量的优良标准设 为待估计的总体参数,为样本统计量,则 的优良标准为:
若,则称 为 的无偏估计量指样本指标的均值应等于被估计的总体指标无偏性
,统计学,第六章 抽样推断若,则称 为比 更有效的估计量若 越大 越小,则称 为 的一致估计量作为优良的估计量,除了满足无偏性的要求外,其方差应比较小有效性指随着样本单位数 的增大,样本估计量将在概率意义下越来越接近于总体真实值一致性抽样估计量的优良标准
1)(l i m

P
n
,统计学,第六章 抽样推断学生 A B C D E F G
成绩 30 40 50 60 70 80 90
有效性按随机原则抽选出4名学生,
并计算平均分数和中位分数。
样本均值 45 47.5 50 52.5 55 57.5 60
出现次数 1 1 2 3 4 4 5
样本均值 62.5 65 67.5 70 72.5 75
出现次数 4 4 3 2 1 1
样本中位数 45 50 55 60 65 70 75
出现次数 4 3 8 5 8 3 4
,统计学,第六章 抽样推断
- 1
0
1
2
3
4
5
6
7
8
9
4 5 5 0 5 5 6 0 6 5 7 0 7 5
有效性 中位数的抽样分布平均数的抽样分布
emx
emExE

)()(
,统计学,第六章 抽样推断无偏性
0
1
2
3
4
5
6
7
1 0 0 2 0 0 3 0 0 4 0 0
1252
1 2 5)( 2 1nSE
5.62)( 2?nSE
有偏无偏
,统计学,第六章 抽样推断一致性学生 A B C D E F G
成绩 30 40 50 60 70 80 90
按随机原则抽选出 5名学生,并计算平均分数。
样 本 均 值 样 本 均 值
ABCDE
ABCDF
ABCDG
ABCEF
ABCEG
ABCFG
ABDEF
ABDEG
ABDFG
ABEFG
ACDEF
50
52
54
54
56
58
56
58
60
62
58
ACDEG
ACDFG
ACEFG
ADEFG
BCDEF
BCDEG
BCDFG
BCEFG
BDEFG
CDEFG
60
62
64
66
60
62
64
66
68
70
样本均值 50 52 54 56 58 60
出现次数 1 1 2 2 3 3
样本均值 62 64 66 68 70
出现次数 3 2 2 1 10
1
2
3
4
5
6
45
47.5
50
52.5
55
57.5
60
62.5
65
67.5
70
72.5
75
n=4时 的抽样分布 x n=5时 的抽样分布 x
,统计学,第六章 抽样推断
为 的无偏、有效、一致估计量;
为 的无偏、有效、一致估计量;
为 的无偏、有效、一致估计量。
x X
1?nS?
p P
数理统计证明:
抽样估计量的优良标准
,统计学,第六章 抽样推断区间估计 给出一个区间 (置信区间 )并推断真正的参数以一定的概率存在于这个区间的方法。
抽样平均误差指每一个可能样本的指标值与总体指标值之间平均离差,即一系列样本指标的标准差

M
i
ix Xx
M 1
21
式中,为样本平均数的抽样平均误差; 为可能的样本数目; 为第 个可能样本的平均数; 为总体平均数
x?
i
X
ix
M
1
)( 2
n
xx
S
注意:不要混淆抽样标准差与样本标准差!
抽样平均误差的计算
nnx
2

N
n
nN
nN
nx
1
1
22
⒈ 样本平均数的抽样平均误差当 N≥500时,有
N
n
N
nN
N
nN
1
1
重复抽样时:
不重复抽样时:
,统计学,第六章 抽样推断
⒉ 样本成数的抽样平均误差

n
PP
p
1?

N
n
n
PP
N
nN
n
PP
p 1
1
1
1?
重复抽样时:
不重复抽样时,
当 N≥500时,有
N
n
N
nN
N
nN
1
1
抽样平均误差的计算公式
,统计学,第六章 抽样推断关于总体方差的估计方法
用过去同类问题全面调查或抽样调查的经验数据代替;
用样本标准差 代替总体标准差,用代替 。 s ps
P?

11
22

f
fxx
n
xx
或pp
n
n?
1
1
抽样平均误差的计算公式
,统计学,第六章 抽样推断影响抽样误差的因素
总体各单位标志值的差异程度(即标准差的大小),越大,抽样误差越大;
样本单位数的多少,越大,抽样误差越小;
抽样方法,不重复抽样的抽样误差比重复抽样的抽样误差小;
抽样组织方式,简单随机抽样的误差最大。
n
,统计学,第六章 抽样推断抽样极限误差指在一定的概率保证程度下,抽样指标与总体指标之间抽样误差的最大可能范围,也称作 抽样允许误差。 常用△表示 。
px PpXx 或
ppxx PpPXxX 或即上式表明,样本平均数(成数)是以总体平均数(成数)
为中心,,在相应的区间内变动。
,统计学,第六章 抽样推断由于总体成数和总体平均数是未知的,它要求靠实测的抽样平均数和抽样成数来估计,因而抽样误差的实际意义是希望总体平均数(成数)落在某个已知的范围内。
抽样极限误差所以前面的不等式应变换为,
ppxx pPpxXx 或即在一个特定的全及总体中,当抽样方法和样本容量固定时,抽样平均误差是一个定值,因此,抽样极限误差通常以抽样平均误差为标准单位来衡量。即抽样极限误差通常表示为抽样平均误差的 多少倍。
tt ppxx // 或即由于 t值与样本估计值落入允许误差范围内的概率有关,
因此,t 也称为 概率度 。
抽样估计的臵信度抽样指标和总体指标的误差不超过一定范围的概率大小,我们将它称之为概率保 证程度,也叫抽样估计的置信度,一般用 F(t)表示。即:
臵信度
)()( tFXxP x
t值与相应的概率保证程度存在一一对应关,
常用 t值及相应的概率保证程度为:
t值 概率保证程度
1.00 0.6827
1.96 0.9500
2.00 0.9545
3.00 0.9973
1
在大样本下
68.27%
95.45%
99.73%
抽样极限误差
),(~ 2 nXNx?
X x? x?2 x?3x?2? xx?3?
x
,统计学,第六章 抽样推断以样本统计量为中心,以抽样平均误差为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,
则概率保证程度越高。
区间估计原理区间估计原理
0.6827 落在范围内的概率为 68.27%
xx
X
X
样本抽样分布曲线原总体分布曲线
,统计学,第六章 抽样推断区间估计原理
0.9545
落在范围内的概率为 95.45%
xx?2?X
X
样本抽样分布曲线原总体分布曲线
,统计学,第六章 抽样推断区间估计原理
0.9973
落在范围内的概率为 99.73%
X
xx?3?
X
样本抽样分布曲线总体分布曲线
,统计学,第六章 抽样推断总体平均数的区间估计

xx
xx
xxX
xXx

,或

表达式其中,为极限误差
xx Z
,统计学,第六章 抽样推断步骤
⒈ 计算样本平均数 ;
x

1
,
1
2
2
2
2

f
fxx
s
n
xx
s
⒉ 搜集总体方差的经验数据 ;或计算样本标准差,即
2?
2s
总体平均数的区间估计
,统计学,第六章 抽样推断步骤
⒊ 计算抽样平均误差,
n
s
nx

重复抽样时,

N
n
n
s
N
n
nx
11
22

不重复抽样时,
总体平均数的区间估计
,统计学,第六章 抽样推断步骤
⒋ 计算抽样极限误差:
xx Z
⒌ 确定总体平均数的置信区间:

xx
xx
xxX
xXx

,或

总体平均数的区间估计
,统计学,第六章 抽样推断
【 例 A】 某企业生产某种产品的工人有 1000人,某日采用不重复抽样从中随机抽取 100人调查他们的当日产量,要求在 95﹪ 的概率保证程度下,估计该厂全部工人的日平均产量和日总产量。
总体平均数的区间估计
,统计学,第六章 抽样推断按 日产量分组
(件)
组中值
(件)
工人数
(人)
110~ 114
114~ 118
118~ 122
122~ 126
126~ 130
130~ 134
134~ 138
138~ 142
112
116
120
124
128
132
136
140
3
7
18
23
21
18
6
4
336
812
2160
2852
2688
2376
816
560
588
700
648
92
84
648
600
784
合计 — 100 12600 4144
x f
xf fxx
2?
100名工人的日产量分组资料
,统计学,第六章 抽样推断解:

件件
47.6
99
4 1 4 4
1
1 2 6
1 0 0
1 2 6 0 0
2

f
fxx
s
f
xf
x
件614.0
1000
100
1
100
47.6
1
2
2

N
n
n
s
x
,统计学,第六章 抽样推断
件203.1614.096.1 xx Z?
则该企业工人人均产量 及日总产量 的置信区间为:
X
XN
203.11261 0 0 0203.11261 0 0 0
,203.1126203.1126

XN
X
即该企业工人人均产量在 124.797至
127.203件之间,其日总产量在 124797至
127303件之间,估计的可靠程度为 95﹪
,统计学,第六章 抽样推断总体成数的区间估计

pp
pp
ppP
pPp

,或

表达式其中,为极限误差
pp Z
,统计学,第六章 抽样推断步骤
⒈ 计算样本成数 ;
n
np 1?
⒉ 搜集总体方差的经验数据 ;2
p?
⒊ 计算抽样平均误差:

1
11
1
1

n
pppp
n
n
nn
p
p 或

N
n
n
pp
N
n
n
p
p 11
1
1
2

重复抽样条件下不重复抽样条件下总体成数的区间估计
,统计学,第六章 抽样推断步骤
⒋ 计算抽样极限误差:
pp Z
⒌ 确定总体成数的置信区间:
pp
pp
ppP
pPp

,或

总体成数的区间估计
,统计学,第六章 抽样推断
【 例 B】 若例 A中工人日产量在 118
件以上者为完成生产定额任务,要求在 95﹪ 的概率保证程度下,估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。
总体成数的区间估计
,统计学,第六章 抽样推断按 日产量分组
(件)
组中值(件) 工人数(人)
110~ 114
114~ 118
118~ 122
122~ 126
126~ 130
130~ 134
134~ 138
138~ 142
112
116
120
124
128
132
136
140
3
7
18
23
21
18
6
4
合计 — 100
x f
100名工人的日产量分组资料完成定额的人数
,统计学,第六章 抽样推断解:

0 5 6 8.00 2 9.096.1
0 2 9.0
1 0 0 0
1 0 0
1
11 0 0
1.09.0
1
1
1
,9.0
1 0 0
90
,96.1,10,90,1 0 0,1 0 0 0
1
01

pp
p
Z
N
n
n
pp
n
n
p
ZnnnN
则己知
,统计学,第六章 抽样推断则该企业全部工人中完成定额的工人比重 及完成定额的工人总数 的臵信区间为:
P NP
0 5 6 8.09.01 0 0 00 5 6 8.09.01 0 0 0
,0 5 6 8.09.00 5 6 8.09.0

NP
P
即该企业工人中完成定额的工人比重在
0.8432至 0.9568之间,完成定额的工人总数在 843.2至 956.8人之间,估计的可靠程度为 95﹪ 。
,统计学,第六章 抽样推断样本容量的确定影响样本容量的因素
总体各单位标志值的差异程度(即标准差的大小),越大,所需样本容量越多
允许的极限误差△的大小:△ 越大,所需样本容量越小;
推断的可靠程度,即置信度,对可靠程度要求越高,所需样本容量越大;
抽样方法和抽样组织方式,重复抽样比不重复抽样所需样本容量要多;类型抽样比简单随机抽样所需样本容量多。
样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量确定样本容量的意义找出在限定费用范围内的最大样本容量
,统计学,第六章 抽样推断确定方法推断总体平均数所需的样本容量
⑴ 重复抽样条件下:
,
n
ZZ xx
2
2
2
22
xx
Z
n

通常的做法是先确定置信度,然后限定抽样极限误差。
或 S通常未知。一般按以下方法确定其估计值:①过去的经验数据;
②试验调查样本的 S。
计算结果通常向上进位
,统计学,第六章 抽样推断
,1
2

N
n
n
ZZ
xx

⑵ 不重复抽样条件下:确定方法推断总体平均数所需的样本容量
22
2
222
22

xx
N
N
ZN
NZ
n
,统计学,第六章 抽样推断
【 例 A】 某食品厂要检验本月生产的 10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为 25克。要求在 95.45﹪ 的概率保证程度下,平均每袋重量的误差范围不超过 5克,应抽查多少袋产品?
,统计学,第六章 抽样推断
袋则在重复抽样条件下:
克克己知
1 0 0
5
252
,2,5,25,1 0 0 0 0
2
22
2
22

x
x
Z
n
ZN
解:
,统计学,第六章 抽样推断
袋袋 1 0 001.99
25251 0 0 0 0
2521 0 0 0 0
222
22
222
22

ZN
NZ
n
x
在不重复抽样下,
确定方法推断总体成数所需的样本容量
⑴ 重复抽样条件下:

,
1
n
PP
ZZ pp

22
2 11
PP
PPPPZ
n

通常的做法是先确定置信度,然后限定抽样极限误差。
计算结果通常向上进位通常未知。一般按以下方法确定其估计值:①过去的经验数据;②试验调查样本的 ;③取方差的最大值 0.25。
2P?
2Ps
,统计学,第六章 抽样推断

,1
1

N
n
n
PP
ZZ pp
⑵ 不重复抽样条件下:
确定方法推断总体成数所需的样本容量

PPN
PNP
PPZN
PPNZ
n
pp

1
1
1
1
222
2
,统计学,第六章 抽样推断
【 例 B】 某企业对一批总数为 5000件的产品进行质量检查,过去几次同类调查所得的产品合格率为 93﹪,95﹪,96﹪,
为了使合格率的允许误差不超过 3﹪,
在 99.73﹪ 的概率保证程度下,应抽查多少件产品?
【 分析 】 因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其中方差最大者,即 P=93﹪ 。
,统计学,第六章 抽样推断

件件在不重复抽样条件下:
件则在重复抽样条件下:
﹪己知
5 7 70 0 4.5 7 6
0 6 5 1.0303.05 0 0 0
0 6 5 1.035 0 0 0
1
1
6 5 1
03.0
0 6 5 1.031
,0 6 5 1.01,3,3,5 0 0 0
22
2
22
2
2
2
2
2
2

PPZN
PPNZ
n
PPZ
n
PPZN
p
p
pp

,统计学,第六章 抽样推断必要样本容量的影响因素
总体方差的大小;
允许误差范围的大小;
概率保证程度;
抽样方法;
抽样的组织方式。
重复抽样条件下:
2
2
2
22
xx
Zn

不重复抽样条件下:
22
2
222
22

xx N
N
ZN
NZn
,统计学,第六章 抽样推断第四节 抽样设计抽样方案设计的基本原则随机原则
—— 抽取样本单位时,应确保每个总体单位都有被抽取的可能;在对样本单位的资料进行搜集和整理时,不能随意遗漏或更换样本单位最大抽样效果原则抽样误差最小 —— 在其他条件相同的情况下,选抽样误差最小的方案费用最少 —— 在其他条件相同的情况下,选费用最少的方案设计抽样方案时,通常是在误差达到一定要求的条件下,选择费用最少的方案简单随机抽样对总体未作任何处理的情况下,然后按随机原则直接从总体中抽出若干单位构成样本抽样平均误差的计算公式见书,P243
抽取样本的具体方法:
抽签法是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。
随机数表法 将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单位。
,统计学,第六章 抽样推断应用 仅适用于规模不大、内部各单位标志值差异较小的总体简单随机抽样的特点
1、直接从总体中抽取所要调查的单位,无须分组、分类、排队等处理;
2、必须事先对总体中的所有单位进行编码和编号;
3、抽取样本时不借助有关标志的辅助信息
4、当总体各单位村志值之间差异很大时,
采用此方法不能保证样本的代表性。
先将总体全部单位按某一标志分类,然后从各类型中按随机原则抽取样本单位组成样本。
总体
N 样本 n
等额抽取等比例抽取最优抽取
2N
kN
1N 1n
2n
kn
··· ···
类型抽样实质上是 分组法 与 随机原则 的结合。
例如,在居民生活水平调查中,先按职业分类,
然后每种职业分别随机抽取部分居民进行调查。
,统计学,第六章 抽样推断类型抽样的优点:
能提高样本的代表性;
能降低影响抽样平均误差的总方差;
组织起来较为方便;
类型抽样分组的基本原则:
尽量缩小各组内标志值之间的差异,增大组间各标志值之间的差异。
,统计学,第六章 抽样推断样本在各组间的分配方法:
等额分配法,每组抽取的单位数一样。
等比例分配法,按各组单位的比例分配样本单位。
最佳分配法,按各组的方差大小分配样本单位。方差大的组分配较多的样本单位。
经济分配法,按各组的方差大小分配样本单位,同时考虑各组抽样调查的费用。
实际工作中比较常用的是 等比例分配法。
,统计学,第六章 抽样推断类型抽样的抽样平均误差一、抽样平均数
)1(
2
2
N
n
n
n
i
x
i
x

不重复抽样情况下重复抽样情况下二、抽样成数
)1(
)1(
)1(
N
n
n
pp
n
pp
ii
p
ii
p
不重复抽样情况下重复抽样情况下
,统计学,第六章 抽样推断
【 例 】 某市有 250家商店,分大中小三类,现从中等比例抽出 50家进行销售额调查,所得资料如下分层各层商店数 Ni
层权
Wi
各层抽取数 ni
各层销售额样本均值 (万元 )
样本方差 (万元 )
大型商店中型商店小型商店
25
75
150
0.1
0.3
0.6
5
15
30
1700
800
120
2800
6985
10850
合计 250 1.0 50 __ __
ix 2iS
以 95.45%的概率保证程度估计该市所有商店的平均销售额。
,统计学,第六章 抽样推断根据题意知,N=250,W1=0.1,W2=0.3,
W3=0.6,f1=f2=f3=0.2,1-а=95.45%,t=2
)(4 8 2
1 2 06.08 0 03.07 0 011.0
万元?
ii xWx
总体均值的点估计值为:
抽样标准误差为:
)(92.11
)
30
1 0 8 5 06.0
15
6 9 8 53.0
5
2 8 0 01.0
(8.0
]/)1([)1(
222
22
2
万元?
nSfW
N
n
n
iii
i
x
总体均值的区间估计为:
482± 2*11.9=[485.16万元,505.84万元 ]
解:,统计学,第六章 抽样推断首先将总体各单位按某一标志排队,然后按固定的顺序和间隔抽取样本单位。又称 机械抽样 或 系统抽样 。
等距抽样等距抽样是不重复抽样,适合于对单位数不多且能进行排序的总体抽样。
按无关标志排队按有关标志排队总体单位的排列顺序和所研究的标志数值大小是无关的。如 调查居民生活水平时,按姓氏笔划排队 。
总体单位的排列顺序和所研究的标志数值大小有密切关系。如 居民收入调查,按银行存款高低排序 。
,统计学,第六章 抽样推断根据样本抽选的方法不同,可分为:
随机起点等距抽样半距起点等距抽样对称起点等距抽样
······
(总体单位按某一标志排序)
······
(总体单位按某一标志排序)
······
(总体单位按某一标志排序)
,统计学,第六章 抽样推断按无关标志排队的等距抽样,可按不重复抽样下的 简单随机抽样 来计算;
按有关标志排队的等距抽样,可按 类型抽样 来计算。
等距抽样的抽样平均误差等距抽样的抽样平均误差估计比较复杂。
一般按以下方法近似计算。
,统计学,第六章 抽样推断将总体全部单位分为若干,群”,然后以群作为抽样单位,从总体中抽取若干群作为样本,并对中选群的所有单位进行全面调查。
例:总体群数 R=16 样本群数 r=4
hlpd nnnnn
A BC
D
E FG H I
J
K
L
M N
OP
I
H
P
D
样本容量简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差整群抽样
,统计学,第六章 抽样推断整群抽样的抽样平均误差
1、抽样平均数的平均误差
2、抽样成数的平均误差
)
1
(
2
R
rR
r
p
p
)
1
(
2
R
rR
r
x
x
,统计学,第六章 抽样推断例,对灯泡质量进行抽样检查,每隔 5小时,抽出 6分种产品进行全面检测,共抽取 25批,测得平均照明时间为 935
小时,样本标准差为 50小时,试以 68.27%的概率保证程度估计全部灯泡的平均照明时间。
解:由题意知:
)(90.9)
1750
25750
(
25
50
)
1
(
22
小时?
R
rR
r
x
x
75025
6
605
935,1,6827.01,25

R
xtr 小时?
抽样标准误差为:
全部灯泡的平均照明时间的区间估计为:
935± 9.90小时
,统计学,第六章 抽样推断先通过抽取若干级中间组全单位,最后再来抽取基本调查单位的抽样组织形式。
例:在某省 100多万农户抽取 1000户调查农户生产性投资情况。
第一阶段:从该省所有县中抽取 5个县第二阶段:从被抽中的 5个县中各抽 4个乡第三阶段:从被抽中的 20个乡中各抽 5个村第四阶段:从被抽中的 100个村中各抽 10户样本 n=100× 10=1000(户 )
多阶段抽样
,统计学,第六章 抽样推断多阶段抽样多阶段抽样的适用范围多阶段抽样具有整群抽样的优点,同时还可用于:
1、当抽样调查的面积很广或者总体范围太大无法直接抽取样本时;
2、可以相对地节约人力物力;
3、对那些基本单位数多且分散的总体,可使抽样工作大大简化。
,统计学,第六章 抽样推断
调查对象的性质特点
对调查对象的了解程度(抽样框的特点)
抽样误差的大小
人力、财力和物力等条件的限制在实际工作中,选择适当的抽样组织方式主要应考虑:
如何确定抽样组织方式
,统计学,第六章 抽样推断