2010-5-13 北京大学光华管理学院 胡健颖 1
市场调研
Marketing Research
主讲人:胡健颖教授
北京大学光华管理学院
2005年 2月
2010-5-13 北京大学光华管理学院 胡健颖 2
市场调研
第五章 抽样:样本容量的确定
参考书第 12章
2010-5-13 北京大学光华管理学院 胡健颖 3
一,影响样本量的因素
? 被调查对象标志的差异程度;
? 允许误差(又称极限误差 Δ)数值的大小;
? 调查结果的可靠程度,即置信度或置信水平的
大小;
? 抽样的方法;
? 抽样的组织形式;
? 调查表的回收率或访问的成功率高低;
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 4
二,抽样误差的概念与种类
?调查误差:是指调查的结果和客观实际
情况的出入和差数;
?两种误差:非抽样误差和抽样误差;
?非抽样误差产生的原因:如下图
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 5
非抽样误差
覆盖不周
观察偏误
非观察偏误 不在家
无回答
被访问者责任
拒答
故意错答
误解而错答
访问者责任
访问员过失
访问员作弊
图 5-1 非抽样误差产生原因
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 6
?抽样误差产生的原因:
1)被研究总体各单位标志值的变异程度;
2)抽取的样本量
3)抽样调查的组织方式;
在随机抽样时,抽样误差可以加以计算
并可以得到控制。
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 7
三,抽样平均误差
?如何理解抽样平均误差?
?如何用概率理论用样本的均值 ( )及样
本比例( p)等统计量来估计相应的真实
的总体数值( μ, Ρ )
X
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 8
? ? 对于大的样本( 30 以上),均值和相应的比例的抽样分布的重要
性质有,
1) 均值的抽样分布是一个正态分布。严格地讲,一个比例的抽样
分布是一个二项分布。但是,对于大的样本( n= 3 0 或更多),
也可以近似为正态分布。
2) 样本的均值
x
=
)(
1
?
?
n
i
i
x
/n 或比例 p 的正态分布的均值分别等
于相应的总体参数 μ 或 Ρ 0,如下式,
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 9
??
?
??
n
i
i
x
n
x
1
1
n
PP??
样 本 中 购 买 爱 普 生 的 人 数
样 本 容 量 (这里 p 是假设一个打印
机用户选择爱普生的概率)
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 10
3 ) 均值或比例的标准误差( sta ndard er ror ),或抽
样平均误差,公式为,
均值 比例
n
x
?
? ?
n
PP
P
)1( ?
??
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 11
4) 通常总体标准差 σ 是未知的,在这种情况下,可以通过
下面的公式从样本中估计总体的标准差,
均值 比例
1
)(
1
2
?
?
?
?
?
n
xx
S
n
i
i
x n
PP
S
P
)1( ?
?
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 12
5) 在 σ 是由 S 估计出来的清况下,均值的抽样
平均误差为,
n
S
?均值的抽样平均误差
同理,在 P 是由 p 估计出来的情况下,成数的
抽样平均误差为
n
pp )1( ?
?成数的抽样平均误差
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 13
6) 抽样分布下任意两点之间的面积可以根据 Z 值
( Z value )计算,
变量标准差
变量平均值变量值 -
?Z
用符号表示,
?
μ-X
Z ?
式中,X —— 变量值;
μ —— 变量平均值;
?
—— 变量标准差。
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 14
Z 值为 1, 2, 3 时标准正态曲线下方的面积
Z 值 标准正态曲线下方的面积
1 6 8,2 6
2 9 5,4 4
3 9 9,7 4
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 15
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-4 -3 -2 -1 0 1 2 3 4
z
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 16
7) 在采用不重复抽样的条件下,应采用校正因子来进行调整,因子的定义为,
1?
?
N
nN
在这种情况下:
)
1
n-
(
2
?
?
N
N
n
S
平均数的平均抽样误差
)
1
(
)1(
?
??
?
N
nN
n
pp
成数 的抽 样 平均 误差
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 17
练习 根据下述一组假设数据计算不重复抽样条件下
的抽样平均误差,
一个包括 4 个人的 全及 总体,为计算简单,设
他们的月工资是,
甲 —— 400 元,乙 —— 50 0 元,丙 —— 700 元,
丁 —— 800 元
求,( 1 ) μ (全及总体平均工资)
( 2 )假定我们从 4 个人中间抽选 2 个人进行调查
(不考虑抽选顺序),可抽多少个样本?
( 3 )不重复抽样的抽样平均误差是多少?
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 18
提示,要先设计计算表
计 算表 μ =?
样本 工资(元) x 样本平均数
x 离差 x - μ
离差平方
2)( μ?x
甲,乙 400, 500 450 - 150?
?,??,????
?,??,????
?,??,????
?,??,????
合计 —— —— ——?
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 19
( 4 )平均数的抽样平均误差是多少?
( 5 )如果按不重复抽样的平均数抽样平均误差公式计算,
平均数的抽样平均误差等于多少?
( 6 )如果在实际工作中没有方差( ?
2
),又怎么办?
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 20
? ? 对总平均值的点估计:是把样本平均值作为总体平均数的
估计值。
? ? 对总体平均值的区间或范围进行估计。除了要说明区间大
小外,习惯上还要说明实际总体平均数在区间范围以内的
概率。这一概率通常被称为置信度,区间则被称为置信区
间。
四,点估计和区间估计
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 21
从理论上可知,
实际值等于 1? 倍抽样平均误差(标准误差)的置信度为
68%
计算公式为:
n
x
n
x
22
11
??
???? μ
实际值等于
2?
倍抽样平均误差(严格上是 1, 9 6,但为了
计算简便通常用 2 )的置信度为 95%
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 22
计算公式为:
n
x
n
x
22
22
??
???? μ
实际值等于 3? 倍抽样平均误差的置信度为 99,7 %
计算公式为:
n
x
n
x
22
33
??
???? μ
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 23
? ?对整体成数的点估计和区间估计,类似对
总体平均数的估计,只需将
2
? 改为 P (1 - P)
(即将总体平均数的方差改为总体成数
方差)即可。
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 24
五,样本容量的确定
第五章 抽样:样本容量的确定
3)在允许误差的前提下,抽样平均误差的置信水平( Z),即
置信度所对应的 Z值;
4)抽样方法
?影响样本容量的因素:
1)总体中各单位之间标志变异的程度,即 或 P(1-P)的大
小;
2)允许有多大范围的误差,即可接受的抽样误差范围( E、
D或 )
2?
?
2010-5-13 北京大学光华管理学院 胡健颖 25
第五章 抽样:样本容量的确定
抽样案例:根据某公司的委托,调查人员以在
最近 30天内至少吃过一次快餐的顾客为总体,
从中抽取了 1000名容量为 200的简单随机样本。
调查的目的是要估计平均一个月内这些人吃快
餐的平均次数。调查结果见下表:
2010-5-13 北京大学光华管理学院 胡健颖 26
表 5 - 1 1 0 0 0 个样本平均数的概率分析:最近 30 天内吃快餐的平均次数
次数分组 发生频数 次数分组 发生频数
2,6 - 3,5 8 1 1,6 - 1 2,5 1 1 0
3,6 - 4,5 15 1 2,6 - 1 3,5 90
4,6 - 5,5 29 1 3,6 - 1 4,5 81
5,6 - 6,5 44 1 4,6 - 1 5,5 66
6,6 - 7,5 64 1 5,6 - 1 6,5 45
7,6 - 8,5 79 1 6,6 - 1 7,5 32
8,6 - 9,5 89 1 7,6 - 1 8,5 16
9,6 - 1 0,5 108 1 8,6 - 1 9,5 9
1 0,6 - 1 1,5 1 1 5 合计 1000
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 27
第五章 抽样:样本容量的确定
如果公司管理层提出了以下要求:
i,规定估计值不得超过实际值的 0.10(
1/10) 。 这个值 ( 0.10) 就是 E值
ii,考虑全局, 需要把实际总体平均值在区
间以内的置信度定为 95%,而若要置信度为 95%,
就必须是在 2倍抽样平均误差范围内, ( 严格是
1.96) 。 因此, 以此值作为 Z值代入公式 。
2010-5-13 北京大学光华管理学院 胡健颖 28
iii 最后,确定公式中的 σ 值,但 σ 值是不可知的。幸
好公司一年前曾做过类似的调查。调查对象是最近 30 天
内吃快餐的平均次数。其标准差是 1, 3 9,可以此作为
?
值。
试问要抽多少样本单位才能满足上述要求?
2 2 2 2 2
22
2 ( 1,3 9 ) 4 ( 1,3 9 ) 7,7 2
772
( 0,1 0 ) 0,0 1 0,0 1
Z
n
E
?
? ? ? ? ?
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 29
2) 对估计比例所需的样本容量
案例:估计最近 90 天内曾在网上购物的所有成年人的
比例。 其目标 是从成年人总体中抽取一个随机样
本,估计其比例是多少。
步骤:第一步,确定 E 的值。 例如,假设可接受的误差
范围为 %2?, 那么将 0, 0 2 作为 E 的值代入公式;
第二步,假设委托单位要求抽样估计在实际总体
比例的
%2?
范围以内的置信度为 95%,那么按
前面讲的,把 2% 作为 Z 值代 入公式。
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 30
第三步,在一年前的一次类似调查中,有 5% 的被调查者在最近
90 天内曾在网上购物。我们可以用 0,0 5 作为 P 值代入公式。
22
22
[ ( 1 ) ] 2 [ 0, 0 5 ( 1 0, 0 5 ) ] 4 ( 0, 0 4 7 5 ) 0, 1 9
475
( 0, 0 2 ) 0, 0 0 0 4 0, 0 0 0 4
Z P P
n
E
??
? ? ? ? ?
在确定估计比例所需的样本容量时有一个优势:如果缺乏估计
P 的依据,可以对 P 值做最糟糕的假设。给定 Z 值和 E 值,P 值
为多大时要求的样本容量最大呢?当 P =0.0 5 时,,P ( 1 - P),有极大
值 0,2 5 存在。
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 31
思考题,
① 迪斯尼世界的调查表明,有 60% 的老顾客喜欢玩滑行铁道。
若要求误差不超过 2%,置信度为 90% ( Z 值查参考书 552 页),
求所需的样本容量。
② 客户要求置信度为 99%,允许抽样误差为 2%,按此计算出
需要样本容量为 500,调查费用是 20, 000 美元,但他只有
17, 000 美元的预算,问有没有其他方案可供选择?
③ 在具有什么条件下,进行调查前就可以将样本容量确定下
来?
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 32
六,抽样调查中的样本轮换问题
?为什么在连续调查过程中,每隔一定
时间要进行样本轮换呢?
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 33
七,抽样调查中的无回答问题
? 提高回答率可用哪些方法?
提高回答率的方法
减少拒绝 减少不在家
激励
调查
对象
事先
通知
回访
物质
刺激
问卷
设计
和执

追踪 其他
图 5 - 3 提高回答率的方法
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 34
? 修正无回答误差可用的策略有哪些?
1) 抽查
2) 替代
3) 置换
4) 主观估计
5) 趋势分析
6) 加权
7) 推算
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 35
八,抽样调查中的敏感性问题
? 敏感性问题:如收入、吸毒、作弊等
? 两种处理方法,
1) 随机化的回答。假如要调查对北大教学
改革的看法,提的问题可以是,
A,您赞成北大提出的教学改革方案吗?
1,是 2, 不是
B,您不赞成北大提出的教学改革方案吗?
1,是 2, 不是
第五章 抽样:样本容量的确定
2010-5-13 北京大学光华管理学院 胡健颖 36
2 ) 提出无关的第二个问题,进行随机化回答。
例如,上例中问题 A 仍为原来的敏感性问题,
把问题 B 换成与问题 A 无关的、毫无敏感性
的问题。如:“您是 一九六四 五月份生的吗?”
等等。
这样,被访者的合作态度可能会有所改进。
第五章 抽样:样本容量的确定