2010-5-13 北京大学光华管理学院 胡健颖 1
市场调研
Marketing Research
主讲人:胡健颖教授
北京大学光华管理学院
2005年 5月
2010-5-13 北京大学光华管理学院 胡健颖 2
市场调研
第六章 频数分布:列联表和假设检验
参考书第 14章和第 15章
2010-5-13 北京大学光华管理学院 胡健颖 3
1.数据处理
? ?确认与编辑
1) 确认:目的是尽可能确保每份调查问卷都是有效问
卷
2) 编辑整理:确认是对访问员的欺骗行为及调查是否
严守程序进行核实,
而编辑是对访问员和应答者的错误进行检查。
2010-5-13 北京大学光华管理学院 胡健颖 4
1.数据处理
下面情况的问卷一般是不能接受的,
① 所回收的问卷是明显不完整的,例如缺了一页或半页
② 问卷从整体上是回答不完整的
③ 问卷的几个部分是回答不完整的
④ 回答的模式说明调查员(或被访者)并没有理解或遵循
访问(回答)指南,例如没有按要求跳答,等等
⑤ 问卷是在事先规定的截止日期以后回收的
⑥ 问卷是不合要求的被访者回答的
2010-5-13 北京大学光华管理学院 胡健颖 5
1.数据处理
? ? 数据编码
? ? 数据录入
? ? 数据清理
在录入数据后,利用计算机来检查数据的一致性,处理缺失值。
? ? 一致性检查:超出数据范围、逻辑问题,极端 值
? ? 处理缺失值:中性值代替(如均值);估计值代替;删除
(去掉有缺失值的样本);结对删除(每一步计算中采用有完整
答案得样本)
2010-5-13 北京大学光华管理学院 胡健颖 6
2.数据的表现 — 统计数字和统计图表
? 假如你已经获得了所要的全部数据;
? 认识数据的第一步:你得到的是什么类型的数
据?
? 利用图和表来展示数据中的信息;
? 运用指标刻画数据的某些特征和程度;
? 使用 EXCEL来完成对数据的描述。
2010-5-13 北京大学光华管理学院 胡健颖 7
数据变量的分类
? 按照取值类型:品质数据和数量数据;
? 按照测量水平:定类( Nominal)、定序
( Ordinal)、定距( Interval)、定比( Ratio)
等四类;
? 按照获取时间:截面数据、时间序列;
? 不同类型的数据应使用不同的统计方法;
? 问题:刚才的数据表中分别是什么类型?
2010-5-13 北京大学光华管理学院 胡健颖 8
区分不同的测量水平
? 区分原则:定类数据没有大小之分;定序数据
有大小之分,差值有意义;定距数据有大小之
分,差值有意义,但其比值无意义;定比数据
比值有意义。
? 定比定距数据可以向前化成定序或者定类数据,
但是将损失一定信息;反之,不能将定序定类
数据化成定距定比数据。
2010-5-13 北京大学光华管理学院 胡健颖 9
品质标志的描述方法( 1)
频数分布、相对分布、百分比频数分布
是否锻炼 人数(频数) 相对频数 百分比 累计百分比
非常喜欢 4 0.2 20.00% 20.00%
喜欢 6 0.3 30.00% 50.00%
一般 5 0.25 25.00% 75.00%
不太喜欢 1 0.5 5.00% 80.00%
讨厌 2 0.1 10.00% 90.00%
很讨厌 2 0.1 10.00% 100.00%
求和 20 1 100.00% 100%
某校学生对体育锻炼的态度
2010-5-13 北京大学光华管理学院 胡健颖 10
品质标志描述方法( 2)
———— 条形图、柱形图
某校学生对体育锻炼态度调查结果
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
非常喜欢 喜欢 一般 不太喜欢 讨厌 很讨厌
2010-5-13 北京大学光华管理学院 胡健颖 11
品质标志的描述方法( 3)
———— 饼图
某校学生对体育锻炼态度调查结果
20%
30%
25%
5%
10% 10%
非常喜欢
喜欢
一般
不太喜欢
讨厌
很讨厌
2010-5-13 北京大学光华管理学院 胡健颖 12
对矿泉水市场的调查
北京市居民矿泉水最喜欢品牌
33%
32%
19%
5%
4%
3%
2% 2%
乐百氏
农夫山泉
娃哈哈
可赛
雀巢
蓝涧
获特满
其它
2010-5-13 北京大学光华管理学院 胡健颖 13
数量标志的描述方法( 1)
? 频数分布
1) 单项式分布
2) 组距式分布:等组距、不等组距
有关概念:组数、
组限(上限、下限)、
开口组、闭口组、组距、
组中值
2010-5-13 北京大学光华管理学院 胡健颖 14
如何按品质标志分类
如何按标志标志分类
假设某年某月某工地 100名工人所得工资资料如下,(单位:元)
450 520 540 580 650 720 580 780 650 620
…………………………………………………
…………………………………………………
…………………………………………………
首先:编制一个序列
其次:编制变量数列
数量标志的描述方法( 1)
案例:
2010-5-13 北京大学光华管理学院 胡健颖 15
( 1)单项变量数列
表 1 某年某工地 100名工人的月工资情况
按工资水平分组(元) 工人数(人)
420
450
480
……
880
4
2
3
……
4
合计 100
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 16
( 2)等组距变量数列
表 2 某年某工地 100名工人的月工资情况
按工资水平分组(元) 工人数(人)
400— 500 10
500— 600 35
600— 700 20
700— 800 20
800— 900 15
合计 100
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 17
表 3 某年某工地 100名工人的月工资情况
按工资水平分组(元) 工人数(人)
500以下 10
500— 600 35
600— 700 20
700— 800 20
800以上 15
合计 100
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 18
注意几个问题:
第一 工资水平是连续变量 要用重叠组限
第二 组限的确定,即分组界限的确定
第三 组距大小的确定
第四 组数的确定,组数= 全 距
组 距
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 19
( 3)不等组距变量数列
如在生命统计中,人口死亡率将人口按年龄分组
1岁以下
1— 1.9岁
2— 2.9岁
3— 3.9岁
4— 4.9岁
组距为 1
5— 9.9岁
10— 14.9岁
15— 19.9岁
组距为 5
20— 29.9岁
30— 39.9岁
40— 49.9岁
50— 59.9岁
组距为 10
60— 64.9岁
……
组距为 5
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 20
数量标志的描述方法( 2)身 高 频 数 百 分 比 累计百分比
<156 3 15.00% 15.00%
156 ~162 2 10.00% 25.00%
162 ~168 3 15.00% 40.00%
168 ~174 5 25.00% 65.00%
174 ~180 5 25.00% 90.00%
>=180 2 10.00% 100.00%
累计 20 100.00%
某校 20名学生的身高分布表
2010-5-13 北京大学光华管理学院 胡健颖 21
数量标志的描述方法( 3)
———— 直方图
X
1 8 5, 01 8 0, 01 7 5, 01 7 0, 01 6 5, 01 6 0, 01 5 5, 01 5 0, 0
H i s t o g r a m F i t t i n g D en s i t y C u r v es
N o r m a l C u r v e ( M u = 1 6 8, 0 S i g m a = 9, 9 4 )
6
5
4
3
2
1
0
2010-5-13 北京大学光华管理学院 胡健颖 22
数量标志的描述方法( 4)
? 对数据进行探索性分析,J.W.Tukey;
? 茎叶图( Stem-leaf)
茎 叶 次数
15 3, 4, 4 3
15 6 1
16 0 1
16 5, 7, 7, 8, 8 5
17 0, 2, 3, 4 4
17 5, 5, 9, 9 4
18 0, 1 2
体重
2010-5-13 北京大学光华管理学院 胡健颖 23
描述两个变量的关系
? 研究两个变量之间的关系:两个变量的类型分
别是什么?
? 两个品质变量之间的关系;
? 一个品质变量和一个数量变量的关系;
? 两个数量变量之间的关系。
2010-5-13 北京大学光华管理学院 胡健颖 24
交叉分组列表(列联表)
表 1 学生性别对体育锻炼的态度调查结果比较
非常喜欢 喜欢 一般 讨厌 很讨厌 合计
男 80 68 36 5 1 190
女 35 62 50 10 3 160
合计 115 130 86 15 4 350
2010-5-13 北京大学光华管理学院 胡健颖 25
45 岁以下 45 岁或以上 45 岁以下 45 岁或以上
是 60% 40% 35% 65%
否 40% 60% 65% 35%
调查对象人数 300 300 200 200
是否希望出国旅行
男性 女性
表 2 年龄和性别对出国旅行的愿望的影响
交叉分组列表(列联表)
2010-5-13 北京大学光华管理学院 胡健颖 26
图形展示两个变量的关系
0.0000
0.0500
0.1000
0.1500
0.2000
0.2500
非常喜欢 喜欢 一般 讨厌 很讨厌
某校男女生对体育锻炼的态度
男
女
2010-5-13 北京大学光华管理学院 胡健颖 27
描述两个数量型的变量
———— 散点图
学生身高和体重的散点图
40
50
60
70
80
90
150 160 170 180 190
学生身高(厘米)
学生体重(千克)
通过这个图,你觉得身高和体重是什么关系?
2010-5-13 北京大学光华管理学院 胡健颖 28
数据描述的数值方法
? 通过数据指标来概括数据中的信息;
? 如何刻画数据的集中程度,或集中位置;
? 如何刻画数据的变异程度;
? 如何刻画检验异常值;
? 如何刻画两个变量之间的关系;
? 探索性分析。
2010-5-13 北京大学光华管理学院 胡健颖 29
数据集中位置的度量
? 平均数( Mean)
? 中位数( Median)
? 众数( Mode)
? 四分位数( Quartiles)
? 百分位数( Percentiles)
? 调整(或截尾)平均数( Trimmed Mean)
2010-5-13 北京大学光华管理学院 胡健颖 30
一个例子
某城市一居室月租金(美元)的 70个数据425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 31
平均月租金
美元80.4 9 0
70
3 5 6,34
??? ?
n
x
x i
2010-5-13 北京大学光华管理学院 胡健颖 32
月租金的中位数
中位数 =( 475+475) /2=475美元425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 33
月租金的众数
众数是 450,450出现的最多,频数是 7425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 34
理解百分数
?P百分数是这样一个数,它使得至多有 p%的数
据项小于这个数,而且至多有( 100-p) %的数
据的数据大于这个数。
? 中位数和上下四分位数都是特殊的百分位数。
P% (100-p)%
P百分位数
2010-5-13 北京大学光华管理学院 胡健颖 35
计算第 P百分位数的步骤
① 以递增顺序排列原始数据(由小到大);
② 计算 I=(p/100) n;
③ 如果 I不是整数,将 I向上取整。大于 I的毗邻
整数指示第 p百分位数的位置;如果 I是整数,
则第 p百分位数是第 I项与第 I+1项的平均值。
?
2010-5-13 北京大学光华管理学院 胡健颖 36
月租金的第 90百分位数
计算 I=(90/100) 70=63。所以第 90百分位数是
第 63和 64个数的平均值。425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
?
2010-5-13 北京大学光华管理学院 胡健颖 37
四分位数
?第一个四分位数 =第 25百分位数
?第三个四分位数 =第 75百分位数425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
1Q
3Q
2010-5-13 北京大学光华管理学院 胡健颖 38
截尾均值
去除 %的最大和最小值,计算剩余数的平均值。
月租金的 5%的截尾值 =487.19
? 425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 39
考虑数据的类型
? 不同类型的数据应该采用不同类型的指标来刻
画他们的集中位置。
? 对于定类数据你能够做什么?
? 对于定序数据你能够做什么?
? 对于定距数据和定比数据你能够做什么?
2010-5-13 北京大学光华管理学院 胡健颖 40
数据变异程度的度量
? 全距( Range)
? 四分位间距( IQR)
? 方差( Variance)
? 标准差( Standard Deviation)
? 变异系数( Coefficient of Variance,CV)
2010-5-13 北京大学光华管理学院 胡健颖 41
月租金的全距和四分位间距
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 42
关于方差和标准差
总体方差
样本方差
总体标准差 σ,样本标准差 s。
样本的标准差系数 =
N
X i 22 )(? ?? ??
1
)( 22
?
?? ?
N
xxs i
( ) 1 0 0 %sx ?
2010-5-13 北京大学光华管理学院 胡健颖 43
月租金的标准差
方差
标准差
标准差系数
16.9 9 6.22 ?s
74.542 ?? ss
%75.11%100 ??xs
2010-5-13 北京大学光华管理学院 胡健颖 44
探索性的数据分析
? 五数概括
最小值( Min),
第一个四分位数( ),
中位数( ),
第三个四分位数( ),
最大值( Max),
2Q
3Q
1Q
2010-5-13 北京大学光华管理学院 胡健颖 45
用 EXCEL对数据进行描述分析
? 数据录入
? 制作图表
? 数据分析
? 计算描述统计量
? 相关系数
2010-5-13 北京大学光华管理学院 胡健颖 46
3.假设检验
?假设检验问题的提出
假设检验是首先对总体提出假设,从而
抽取一个随机样本,然后以样本的统计
值来验证这个假设是否成立,可以说假
设检验是统计推论的反证法。
2010-5-13 北京大学光华管理学院 胡健颖 47
3.假设检验
? 假设检验的一般步骤
1) 建立零假设 和备择假设 ;
2) 选择适当的用来决定是否拒绝零假设的统
计方法和相应的检验统计量;
3) 选择显著水平的大小。在实践中,进行假
设检验的人员确定允许拒绝第一类错误概
率的最大值称为检验的显著性水平。显著
性水平一般选择 0.05和 0.01;
1H0H
2010-5-13 北京大学光华管理学院 胡健颖 48
3.假设检验
4) 决定样本规模并收集数据,计算检验统计值,
如样本均值、样本比例、样本标准差等等;
5) 用检验统计量的抽样分布来决定检验统计量在
零假设条件下的概率,以及检验统计量的临界
值(即指拒绝域的边界),以便将检验统计量
的值与临界值比较;
2010-5-13 北京大学光华管理学院 胡健颖 49
3.假设检验
6) 做出是否拒绝零假设的决定。有四种拒绝零假
设的方式:
①如果最终统计量落入拒绝域之内,则拒绝零假设 H0
② 如果最终统计量(它的绝对值)大于临界值,则拒绝
零假设 H0
③ 如果概率值小于显著性水平,则拒绝零假设 H0
④ 如果零假设的值落在置信区间之外,则拒绝零假设 H0
2010-5-13 北京大学光华管理学院 胡健颖 50
3.假设检验
7) 用市场营销研究的语言说明统计决定的意义。
注意,如果零假设没有被拒绝,那么最好将结论叙述为“无
法拒绝零假设”而不是“接受零假设”,因为从逻辑上讲“无
法拒绝 H
0
”并不一定就意味着可以接受 H
0
。否则在一些情
况下可能会出现严重的问题,或者只给出概率值,让决策者
进一步考虑。
如前述,最重要的抽样分布是正态分布,作为最终统计量的
z 比值常常用于大样本的情况(例如
120n ?
的时候),其计
算方法为,
检验统计量的标准误差原假设的值)(检验统计量比值 /??z
2010-5-13 北京大学光华管理学院 胡健颖 51
3.假设检验
对于零假设的检验称为单尾检验,因为备择假设是以单方向形式表
述的。
如果要进行双侧检验,常用的理论如下,
? ? 如果 64.1?z,那么结果在 10% 的水平下是显著的(或在 10% 的
显著水平下拒绝 H
0
接受 H
1
)
? ? 如果 96.1?z,那么结果在 5% 的水平下是显著的(或在 5% 的显
著水平下拒绝 H
0
接受 H
1
)
? ? 如果
58.2?z
,那么结果在 1% 的水平下是显著的(或在 1% 的显
著水平下拒绝 H
0
接受 H
1
)
? ? 如果
29.3?z
,那么结果在 0,1 % 的水平下是显著的(或在 0,1 %
的显著水平下拒绝 H
0
接受 H
1
)
在商业性营销研究中,单尾检验比双尾检验更常用。 通常,研究收
集的证据所支持的结论都有一定的方向性,例如销售额越高产品质
量就越高。
2010-5-13 北京大学光华管理学院 胡健颖 52
课堂练习
某百货商场正在考虑是否提供网上购物服
务,如果网络用户中 40% 通过网络购物,
就可以推出这项服务。
结合这个例子,第一步应该如何考虑?
—— 建立假设
对零假设检验的表述方式为,
40.0:
0
?pH
40.0:
1
?pH
2010-5-13 北京大学光华管理学院 胡健颖 53
课堂练习
如果研究者需要检验通过网络购物的网络用户
比例是否是 40%, 就 要进行双尾检验,假设表达
方式变为,
40.0:
0
?pH
40.0:
1
?pH
2010-5-13 北京大学光华管理学院 胡健颖 54
课堂练习
第二步 —— 选择适当的检验方法
由于检验统计量通常服从某种分布,比如正态分
布,t 分布或者卡方分布。在网络购物服务的例子
中,适用的是 z 统计量,它服从正态分布,其计算
方法如下,
( 1 )
pP
z
PP
n
?
?
? 当 P 已知时
2010-5-13 北京大学光华管理学院 胡健颖 55
课堂练习
n
pp
Pp
z
)1( ?
?
?
当 P 未知,但样本量很大时
假设本例中调查了 30 个用户,其中 17 人表示使用因特网购物,
从而样本的比例填写为 p = 17/ 30= 0,567
已知
089.0
30
6.04.0)1(
?
?
?
?
?
n
pp
p
?
则检验统计量 z 计算如下,
88.1
0 8 9.0
40.05 6 7.0
?
?
?
?
?
p
Pp
z
?
2010-5-13 北京大学光华管理学院 胡健颖 56
课堂练习
第三步 —— 选择显著性水平 ? 的大小
我们知道抽样调查结果与总体参数完全相等的情况几乎
是不可能发生的。关键问题是要确定,如果统计假设正确,
实际样本成数和假设成数之间的离差是否会在 100 例中出
现 5 例。因此需要一个判定标准来决定是否拒绝原假设,
统计学家用显著性水平来说明判定标准。我们采用一项显
著水平为 0, 0 5 的假设。
2010-5-13 北京大学光华管理学院 胡健颖 57
课堂练习
第一类错误 —— 是指样本结果拒绝了实际上正确的零假设。
本例,如果通过样本数据得出,认为偏好新的服务的客户
比例超过 40名,而实际数字却等于或小于 40名,我们就
犯了第一类错误。第一类错误发生的概率 也叫显著性水
平,即原假设是正确的,却接受了对立假设。
?
2010-5-13 北京大学光华管理学院 胡健颖 58
课堂练习
第二类错误 —— 是指根据样本结果接受了实际上错误的零假设。
本例,如果我们根据样本数据认为偏好新服务的顾客等于或少于
40 名,而实际上却大于 40 名,我们就犯了第二类错误,即对立
假设是正确的,却接受了原假设。第二类错误发生的概率用 表
示。换句话说
?
和
?
被分别称为犯第一类错误和第二类错误的
概率。犯第一类错误的概率也被叫做显著性程度。
(参考书第 552 页)
?
2010-5-13 北京大学光华管理学院 胡健颖 59
课堂练习 在第二步中已经计算出 z =1,8 8,利用标准正态表,可以计算出
z 值为 1, 8 8 的概率(或者利用标准正态分布查右侧尾部累计概
率)。可知 z =1,8 8 右侧的区域为 0, 0 3 0 1 ( 1 - 0, 9 6 9 9 )
取 ? =0,0 5,位于 z 的临界值 0, 0 5 的右侧区域,介于 1, 6 4 和
1, 6 5 之间,为 1, 6 4 5 。
2010-5-13 北京大学光华管理学院 胡健颖 60
课堂练习
2010-5-13 北京大学光华管理学院 胡健颖 61
课堂练习
第四步 —— 比较概率并做出决策
在第三步中,已知本例的样本的比例值 p = 0, 567 的概率
为 0,0301,小于显著性水平 0, 05,因此零假设被拒绝。
同样,计算出的统计量 z = 1,88,位于拒绝假设区域,超
过了 1,645 的值,也可以拒绝零假设。
最后一步 —— 市场营销研究结论
结论:由于网络用户中通过网络购物的比例显著大于 0,40,
故建议百货商店推出新的网络购物服务。
2010-5-13 北京大学光华管理学院 胡健颖 62
课堂练习 二
试实验生产电视机显像管的新工序是否明显优于传统的旧工序的显像管。
解:零假设为“新工序生产的显像管的总体平均寿命 1200 小时与旧工序生产
的没有什么差异”,即
1 2 0 0:
1 2 0 0:
11
00
?
?
?
?
H
H
又知:
1 0 0?n
%5??
1 2 6 5?x
300?S
则:样本均值 x 的标准差 =
30100/300/ ??ns
64.117.230/)1 2 0 01 2 6 5( ????z
结论:差异是显著的,因而在 5% 的显著性水平下拒绝零假设,即新工序生产的
显像管的平均寿命显著地长于传统旧工序,这一检验的错误 水平为 5% 。
市场调研
Marketing Research
主讲人:胡健颖教授
北京大学光华管理学院
2005年 5月
2010-5-13 北京大学光华管理学院 胡健颖 2
市场调研
第六章 频数分布:列联表和假设检验
参考书第 14章和第 15章
2010-5-13 北京大学光华管理学院 胡健颖 3
1.数据处理
? ?确认与编辑
1) 确认:目的是尽可能确保每份调查问卷都是有效问
卷
2) 编辑整理:确认是对访问员的欺骗行为及调查是否
严守程序进行核实,
而编辑是对访问员和应答者的错误进行检查。
2010-5-13 北京大学光华管理学院 胡健颖 4
1.数据处理
下面情况的问卷一般是不能接受的,
① 所回收的问卷是明显不完整的,例如缺了一页或半页
② 问卷从整体上是回答不完整的
③ 问卷的几个部分是回答不完整的
④ 回答的模式说明调查员(或被访者)并没有理解或遵循
访问(回答)指南,例如没有按要求跳答,等等
⑤ 问卷是在事先规定的截止日期以后回收的
⑥ 问卷是不合要求的被访者回答的
2010-5-13 北京大学光华管理学院 胡健颖 5
1.数据处理
? ? 数据编码
? ? 数据录入
? ? 数据清理
在录入数据后,利用计算机来检查数据的一致性,处理缺失值。
? ? 一致性检查:超出数据范围、逻辑问题,极端 值
? ? 处理缺失值:中性值代替(如均值);估计值代替;删除
(去掉有缺失值的样本);结对删除(每一步计算中采用有完整
答案得样本)
2010-5-13 北京大学光华管理学院 胡健颖 6
2.数据的表现 — 统计数字和统计图表
? 假如你已经获得了所要的全部数据;
? 认识数据的第一步:你得到的是什么类型的数
据?
? 利用图和表来展示数据中的信息;
? 运用指标刻画数据的某些特征和程度;
? 使用 EXCEL来完成对数据的描述。
2010-5-13 北京大学光华管理学院 胡健颖 7
数据变量的分类
? 按照取值类型:品质数据和数量数据;
? 按照测量水平:定类( Nominal)、定序
( Ordinal)、定距( Interval)、定比( Ratio)
等四类;
? 按照获取时间:截面数据、时间序列;
? 不同类型的数据应使用不同的统计方法;
? 问题:刚才的数据表中分别是什么类型?
2010-5-13 北京大学光华管理学院 胡健颖 8
区分不同的测量水平
? 区分原则:定类数据没有大小之分;定序数据
有大小之分,差值有意义;定距数据有大小之
分,差值有意义,但其比值无意义;定比数据
比值有意义。
? 定比定距数据可以向前化成定序或者定类数据,
但是将损失一定信息;反之,不能将定序定类
数据化成定距定比数据。
2010-5-13 北京大学光华管理学院 胡健颖 9
品质标志的描述方法( 1)
频数分布、相对分布、百分比频数分布
是否锻炼 人数(频数) 相对频数 百分比 累计百分比
非常喜欢 4 0.2 20.00% 20.00%
喜欢 6 0.3 30.00% 50.00%
一般 5 0.25 25.00% 75.00%
不太喜欢 1 0.5 5.00% 80.00%
讨厌 2 0.1 10.00% 90.00%
很讨厌 2 0.1 10.00% 100.00%
求和 20 1 100.00% 100%
某校学生对体育锻炼的态度
2010-5-13 北京大学光华管理学院 胡健颖 10
品质标志描述方法( 2)
———— 条形图、柱形图
某校学生对体育锻炼态度调查结果
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
非常喜欢 喜欢 一般 不太喜欢 讨厌 很讨厌
2010-5-13 北京大学光华管理学院 胡健颖 11
品质标志的描述方法( 3)
———— 饼图
某校学生对体育锻炼态度调查结果
20%
30%
25%
5%
10% 10%
非常喜欢
喜欢
一般
不太喜欢
讨厌
很讨厌
2010-5-13 北京大学光华管理学院 胡健颖 12
对矿泉水市场的调查
北京市居民矿泉水最喜欢品牌
33%
32%
19%
5%
4%
3%
2% 2%
乐百氏
农夫山泉
娃哈哈
可赛
雀巢
蓝涧
获特满
其它
2010-5-13 北京大学光华管理学院 胡健颖 13
数量标志的描述方法( 1)
? 频数分布
1) 单项式分布
2) 组距式分布:等组距、不等组距
有关概念:组数、
组限(上限、下限)、
开口组、闭口组、组距、
组中值
2010-5-13 北京大学光华管理学院 胡健颖 14
如何按品质标志分类
如何按标志标志分类
假设某年某月某工地 100名工人所得工资资料如下,(单位:元)
450 520 540 580 650 720 580 780 650 620
…………………………………………………
…………………………………………………
…………………………………………………
首先:编制一个序列
其次:编制变量数列
数量标志的描述方法( 1)
案例:
2010-5-13 北京大学光华管理学院 胡健颖 15
( 1)单项变量数列
表 1 某年某工地 100名工人的月工资情况
按工资水平分组(元) 工人数(人)
420
450
480
……
880
4
2
3
……
4
合计 100
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 16
( 2)等组距变量数列
表 2 某年某工地 100名工人的月工资情况
按工资水平分组(元) 工人数(人)
400— 500 10
500— 600 35
600— 700 20
700— 800 20
800— 900 15
合计 100
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 17
表 3 某年某工地 100名工人的月工资情况
按工资水平分组(元) 工人数(人)
500以下 10
500— 600 35
600— 700 20
700— 800 20
800以上 15
合计 100
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 18
注意几个问题:
第一 工资水平是连续变量 要用重叠组限
第二 组限的确定,即分组界限的确定
第三 组距大小的确定
第四 组数的确定,组数= 全 距
组 距
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 19
( 3)不等组距变量数列
如在生命统计中,人口死亡率将人口按年龄分组
1岁以下
1— 1.9岁
2— 2.9岁
3— 3.9岁
4— 4.9岁
组距为 1
5— 9.9岁
10— 14.9岁
15— 19.9岁
组距为 5
20— 29.9岁
30— 39.9岁
40— 49.9岁
50— 59.9岁
组距为 10
60— 64.9岁
……
组距为 5
数量标志的描述方法( 1)
2010-5-13 北京大学光华管理学院 胡健颖 20
数量标志的描述方法( 2)身 高 频 数 百 分 比 累计百分比
<156 3 15.00% 15.00%
156 ~162 2 10.00% 25.00%
162 ~168 3 15.00% 40.00%
168 ~174 5 25.00% 65.00%
174 ~180 5 25.00% 90.00%
>=180 2 10.00% 100.00%
累计 20 100.00%
某校 20名学生的身高分布表
2010-5-13 北京大学光华管理学院 胡健颖 21
数量标志的描述方法( 3)
———— 直方图
X
1 8 5, 01 8 0, 01 7 5, 01 7 0, 01 6 5, 01 6 0, 01 5 5, 01 5 0, 0
H i s t o g r a m F i t t i n g D en s i t y C u r v es
N o r m a l C u r v e ( M u = 1 6 8, 0 S i g m a = 9, 9 4 )
6
5
4
3
2
1
0
2010-5-13 北京大学光华管理学院 胡健颖 22
数量标志的描述方法( 4)
? 对数据进行探索性分析,J.W.Tukey;
? 茎叶图( Stem-leaf)
茎 叶 次数
15 3, 4, 4 3
15 6 1
16 0 1
16 5, 7, 7, 8, 8 5
17 0, 2, 3, 4 4
17 5, 5, 9, 9 4
18 0, 1 2
体重
2010-5-13 北京大学光华管理学院 胡健颖 23
描述两个变量的关系
? 研究两个变量之间的关系:两个变量的类型分
别是什么?
? 两个品质变量之间的关系;
? 一个品质变量和一个数量变量的关系;
? 两个数量变量之间的关系。
2010-5-13 北京大学光华管理学院 胡健颖 24
交叉分组列表(列联表)
表 1 学生性别对体育锻炼的态度调查结果比较
非常喜欢 喜欢 一般 讨厌 很讨厌 合计
男 80 68 36 5 1 190
女 35 62 50 10 3 160
合计 115 130 86 15 4 350
2010-5-13 北京大学光华管理学院 胡健颖 25
45 岁以下 45 岁或以上 45 岁以下 45 岁或以上
是 60% 40% 35% 65%
否 40% 60% 65% 35%
调查对象人数 300 300 200 200
是否希望出国旅行
男性 女性
表 2 年龄和性别对出国旅行的愿望的影响
交叉分组列表(列联表)
2010-5-13 北京大学光华管理学院 胡健颖 26
图形展示两个变量的关系
0.0000
0.0500
0.1000
0.1500
0.2000
0.2500
非常喜欢 喜欢 一般 讨厌 很讨厌
某校男女生对体育锻炼的态度
男
女
2010-5-13 北京大学光华管理学院 胡健颖 27
描述两个数量型的变量
———— 散点图
学生身高和体重的散点图
40
50
60
70
80
90
150 160 170 180 190
学生身高(厘米)
学生体重(千克)
通过这个图,你觉得身高和体重是什么关系?
2010-5-13 北京大学光华管理学院 胡健颖 28
数据描述的数值方法
? 通过数据指标来概括数据中的信息;
? 如何刻画数据的集中程度,或集中位置;
? 如何刻画数据的变异程度;
? 如何刻画检验异常值;
? 如何刻画两个变量之间的关系;
? 探索性分析。
2010-5-13 北京大学光华管理学院 胡健颖 29
数据集中位置的度量
? 平均数( Mean)
? 中位数( Median)
? 众数( Mode)
? 四分位数( Quartiles)
? 百分位数( Percentiles)
? 调整(或截尾)平均数( Trimmed Mean)
2010-5-13 北京大学光华管理学院 胡健颖 30
一个例子
某城市一居室月租金(美元)的 70个数据425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 31
平均月租金
美元80.4 9 0
70
3 5 6,34
??? ?
n
x
x i
2010-5-13 北京大学光华管理学院 胡健颖 32
月租金的中位数
中位数 =( 475+475) /2=475美元425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 33
月租金的众数
众数是 450,450出现的最多,频数是 7425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 34
理解百分数
?P百分数是这样一个数,它使得至多有 p%的数
据项小于这个数,而且至多有( 100-p) %的数
据的数据大于这个数。
? 中位数和上下四分位数都是特殊的百分位数。
P% (100-p)%
P百分位数
2010-5-13 北京大学光华管理学院 胡健颖 35
计算第 P百分位数的步骤
① 以递增顺序排列原始数据(由小到大);
② 计算 I=(p/100) n;
③ 如果 I不是整数,将 I向上取整。大于 I的毗邻
整数指示第 p百分位数的位置;如果 I是整数,
则第 p百分位数是第 I项与第 I+1项的平均值。
?
2010-5-13 北京大学光华管理学院 胡健颖 36
月租金的第 90百分位数
计算 I=(90/100) 70=63。所以第 90百分位数是
第 63和 64个数的平均值。425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
?
2010-5-13 北京大学光华管理学院 胡健颖 37
四分位数
?第一个四分位数 =第 25百分位数
?第三个四分位数 =第 75百分位数425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
1Q
3Q
2010-5-13 北京大学光华管理学院 胡健颖 38
截尾均值
去除 %的最大和最小值,计算剩余数的平均值。
月租金的 5%的截尾值 =487.19
? 425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 39
考虑数据的类型
? 不同类型的数据应该采用不同类型的指标来刻
画他们的集中位置。
? 对于定类数据你能够做什么?
? 对于定序数据你能够做什么?
? 对于定距数据和定比数据你能够做什么?
2010-5-13 北京大学光华管理学院 胡健颖 40
数据变异程度的度量
? 全距( Range)
? 四分位间距( IQR)
? 方差( Variance)
? 标准差( Standard Deviation)
? 变异系数( Coefficient of Variance,CV)
2010-5-13 北京大学光华管理学院 胡健颖 41
月租金的全距和四分位间距
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
2010-5-13 北京大学光华管理学院 胡健颖 42
关于方差和标准差
总体方差
样本方差
总体标准差 σ,样本标准差 s。
样本的标准差系数 =
N
X i 22 )(? ?? ??
1
)( 22
?
?? ?
N
xxs i
( ) 1 0 0 %sx ?
2010-5-13 北京大学光华管理学院 胡健颖 43
月租金的标准差
方差
标准差
标准差系数
16.9 9 6.22 ?s
74.542 ?? ss
%75.11%100 ??xs
2010-5-13 北京大学光华管理学院 胡健颖 44
探索性的数据分析
? 五数概括
最小值( Min),
第一个四分位数( ),
中位数( ),
第三个四分位数( ),
最大值( Max),
2Q
3Q
1Q
2010-5-13 北京大学光华管理学院 胡健颖 45
用 EXCEL对数据进行描述分析
? 数据录入
? 制作图表
? 数据分析
? 计算描述统计量
? 相关系数
2010-5-13 北京大学光华管理学院 胡健颖 46
3.假设检验
?假设检验问题的提出
假设检验是首先对总体提出假设,从而
抽取一个随机样本,然后以样本的统计
值来验证这个假设是否成立,可以说假
设检验是统计推论的反证法。
2010-5-13 北京大学光华管理学院 胡健颖 47
3.假设检验
? 假设检验的一般步骤
1) 建立零假设 和备择假设 ;
2) 选择适当的用来决定是否拒绝零假设的统
计方法和相应的检验统计量;
3) 选择显著水平的大小。在实践中,进行假
设检验的人员确定允许拒绝第一类错误概
率的最大值称为检验的显著性水平。显著
性水平一般选择 0.05和 0.01;
1H0H
2010-5-13 北京大学光华管理学院 胡健颖 48
3.假设检验
4) 决定样本规模并收集数据,计算检验统计值,
如样本均值、样本比例、样本标准差等等;
5) 用检验统计量的抽样分布来决定检验统计量在
零假设条件下的概率,以及检验统计量的临界
值(即指拒绝域的边界),以便将检验统计量
的值与临界值比较;
2010-5-13 北京大学光华管理学院 胡健颖 49
3.假设检验
6) 做出是否拒绝零假设的决定。有四种拒绝零假
设的方式:
①如果最终统计量落入拒绝域之内,则拒绝零假设 H0
② 如果最终统计量(它的绝对值)大于临界值,则拒绝
零假设 H0
③ 如果概率值小于显著性水平,则拒绝零假设 H0
④ 如果零假设的值落在置信区间之外,则拒绝零假设 H0
2010-5-13 北京大学光华管理学院 胡健颖 50
3.假设检验
7) 用市场营销研究的语言说明统计决定的意义。
注意,如果零假设没有被拒绝,那么最好将结论叙述为“无
法拒绝零假设”而不是“接受零假设”,因为从逻辑上讲“无
法拒绝 H
0
”并不一定就意味着可以接受 H
0
。否则在一些情
况下可能会出现严重的问题,或者只给出概率值,让决策者
进一步考虑。
如前述,最重要的抽样分布是正态分布,作为最终统计量的
z 比值常常用于大样本的情况(例如
120n ?
的时候),其计
算方法为,
检验统计量的标准误差原假设的值)(检验统计量比值 /??z
2010-5-13 北京大学光华管理学院 胡健颖 51
3.假设检验
对于零假设的检验称为单尾检验,因为备择假设是以单方向形式表
述的。
如果要进行双侧检验,常用的理论如下,
? ? 如果 64.1?z,那么结果在 10% 的水平下是显著的(或在 10% 的
显著水平下拒绝 H
0
接受 H
1
)
? ? 如果 96.1?z,那么结果在 5% 的水平下是显著的(或在 5% 的显
著水平下拒绝 H
0
接受 H
1
)
? ? 如果
58.2?z
,那么结果在 1% 的水平下是显著的(或在 1% 的显
著水平下拒绝 H
0
接受 H
1
)
? ? 如果
29.3?z
,那么结果在 0,1 % 的水平下是显著的(或在 0,1 %
的显著水平下拒绝 H
0
接受 H
1
)
在商业性营销研究中,单尾检验比双尾检验更常用。 通常,研究收
集的证据所支持的结论都有一定的方向性,例如销售额越高产品质
量就越高。
2010-5-13 北京大学光华管理学院 胡健颖 52
课堂练习
某百货商场正在考虑是否提供网上购物服
务,如果网络用户中 40% 通过网络购物,
就可以推出这项服务。
结合这个例子,第一步应该如何考虑?
—— 建立假设
对零假设检验的表述方式为,
40.0:
0
?pH
40.0:
1
?pH
2010-5-13 北京大学光华管理学院 胡健颖 53
课堂练习
如果研究者需要检验通过网络购物的网络用户
比例是否是 40%, 就 要进行双尾检验,假设表达
方式变为,
40.0:
0
?pH
40.0:
1
?pH
2010-5-13 北京大学光华管理学院 胡健颖 54
课堂练习
第二步 —— 选择适当的检验方法
由于检验统计量通常服从某种分布,比如正态分
布,t 分布或者卡方分布。在网络购物服务的例子
中,适用的是 z 统计量,它服从正态分布,其计算
方法如下,
( 1 )
pP
z
PP
n
?
?
? 当 P 已知时
2010-5-13 北京大学光华管理学院 胡健颖 55
课堂练习
n
pp
Pp
z
)1( ?
?
?
当 P 未知,但样本量很大时
假设本例中调查了 30 个用户,其中 17 人表示使用因特网购物,
从而样本的比例填写为 p = 17/ 30= 0,567
已知
089.0
30
6.04.0)1(
?
?
?
?
?
n
pp
p
?
则检验统计量 z 计算如下,
88.1
0 8 9.0
40.05 6 7.0
?
?
?
?
?
p
Pp
z
?
2010-5-13 北京大学光华管理学院 胡健颖 56
课堂练习
第三步 —— 选择显著性水平 ? 的大小
我们知道抽样调查结果与总体参数完全相等的情况几乎
是不可能发生的。关键问题是要确定,如果统计假设正确,
实际样本成数和假设成数之间的离差是否会在 100 例中出
现 5 例。因此需要一个判定标准来决定是否拒绝原假设,
统计学家用显著性水平来说明判定标准。我们采用一项显
著水平为 0, 0 5 的假设。
2010-5-13 北京大学光华管理学院 胡健颖 57
课堂练习
第一类错误 —— 是指样本结果拒绝了实际上正确的零假设。
本例,如果通过样本数据得出,认为偏好新的服务的客户
比例超过 40名,而实际数字却等于或小于 40名,我们就
犯了第一类错误。第一类错误发生的概率 也叫显著性水
平,即原假设是正确的,却接受了对立假设。
?
2010-5-13 北京大学光华管理学院 胡健颖 58
课堂练习
第二类错误 —— 是指根据样本结果接受了实际上错误的零假设。
本例,如果我们根据样本数据认为偏好新服务的顾客等于或少于
40 名,而实际上却大于 40 名,我们就犯了第二类错误,即对立
假设是正确的,却接受了原假设。第二类错误发生的概率用 表
示。换句话说
?
和
?
被分别称为犯第一类错误和第二类错误的
概率。犯第一类错误的概率也被叫做显著性程度。
(参考书第 552 页)
?
2010-5-13 北京大学光华管理学院 胡健颖 59
课堂练习 在第二步中已经计算出 z =1,8 8,利用标准正态表,可以计算出
z 值为 1, 8 8 的概率(或者利用标准正态分布查右侧尾部累计概
率)。可知 z =1,8 8 右侧的区域为 0, 0 3 0 1 ( 1 - 0, 9 6 9 9 )
取 ? =0,0 5,位于 z 的临界值 0, 0 5 的右侧区域,介于 1, 6 4 和
1, 6 5 之间,为 1, 6 4 5 。
2010-5-13 北京大学光华管理学院 胡健颖 60
课堂练习
2010-5-13 北京大学光华管理学院 胡健颖 61
课堂练习
第四步 —— 比较概率并做出决策
在第三步中,已知本例的样本的比例值 p = 0, 567 的概率
为 0,0301,小于显著性水平 0, 05,因此零假设被拒绝。
同样,计算出的统计量 z = 1,88,位于拒绝假设区域,超
过了 1,645 的值,也可以拒绝零假设。
最后一步 —— 市场营销研究结论
结论:由于网络用户中通过网络购物的比例显著大于 0,40,
故建议百货商店推出新的网络购物服务。
2010-5-13 北京大学光华管理学院 胡健颖 62
课堂练习 二
试实验生产电视机显像管的新工序是否明显优于传统的旧工序的显像管。
解:零假设为“新工序生产的显像管的总体平均寿命 1200 小时与旧工序生产
的没有什么差异”,即
1 2 0 0:
1 2 0 0:
11
00
?
?
?
?
H
H
又知:
1 0 0?n
%5??
1 2 6 5?x
300?S
则:样本均值 x 的标准差 =
30100/300/ ??ns
64.117.230/)1 2 0 01 2 6 5( ????z
结论:差异是显著的,因而在 5% 的显著性水平下拒绝零假设,即新工序生产的
显像管的平均寿命显著地长于传统旧工序,这一检验的错误 水平为 5% 。