1
Journalism & Communication School
新闻传播学院新闻传播学院主讲教师:沈浩主讲教师:沈浩北京广播学院新闻传播学院北京广播学院新闻传播学院 副教授副教授北京广播学院调查统计研究所北京广播学院调查统计研究所 副所长副所长卡方检验与交互分析卡方检验与交互分析第十讲第十讲新闻传播学院新闻传播学院
2
卡方检验卡方检验
? 检验两个变量间的交互分析的方法检验两个变量间的交互分析的方法
? 变量间独立性检验变量间独立性检验
? 拟合优度拟合优度新闻传播学院新闻传播学院
3
交互分析交互分析
? 是传统的调查研究中最常用的方法之一是传统的调查研究中最常用的方法之一
? 用于研究两个变量之间是相互独立还是存在某种关联性用于研究两个变量之间是相互独立还是存在某种关联性
? 适合于分析两个定类变量的关系适合于分析两个定类变量的关系
? 如果降低测量级别也可分析较高测量等级的变量如果降低测量级别也可分析较高测量等级的变量新闻传播学院新闻传播学院
4
拟合优度的卡方拟合优度的卡方 X2 检验检验卡方卡方 x
2
检验检验观测频次观测频次 — 期望频次期望频次
?拟合优度:研究观测数据与原假设拟合拟合优度:研究观测数据与原假设拟合 /一致的程度一致的程度假设检验的形式假设检验的形式,
新闻传播学院新闻传播学院
5
节目 观测频次 f0 期望频次 fe
1 85 50
2 80 50
3 55 50
4 10 50
5 40 50
6 30 50
H
0
:,儿童对六种节目没有偏好儿童对六种节目没有偏好

=
e
e
f
ff
2
02
)(
χ
e
ff?
0
2
0
)(
e
ff?
ee
fff /)(
2
0
N=300名儿童名儿童
1
2
3
4
新闻传播学院新闻传播学院
6

=
e
e
f
ff
2
0
2
)(
χ

=
期望频次期望频次观测频次
2
2
)-(
χ
2
新闻传播学院新闻传播学院
7
拟合优度的卡方值计算公式拟合优度的卡方值计算公式

=
e
e
f
ff
2
02
)(
χ
Chi-Square
自由度 df = k-1 K=分组数
X
2
卡方是一个随机变量,随样本的不同而波动查卡方表概值 P<0.05 ?拒绝或接受 H
0
新闻传播学院新闻传播学院
8
卡方检验的步骤卡方检验的步骤
? 陈述原假设陈述原假设 H
0
? 计算卡方值计算卡方值
? 求得卡方值的概值求得卡方值的概值
? 接受原假设或拒绝原假设接受原假设或拒绝原假设新闻传播学院新闻传播学院
9
交互分析交互分析
A1 性别 * A3 文化程度 Crosstabulation
19 109 132 82 342
23.1 112.7 134.9 71.2 342.0
5.6% 31.9% 38.6% 24.0% 100.0%
38.8% 45.6% 46.2% 54.3% 47.2%
30 130 154 69 383
25.9 126.3 151.1 79.8 383.0
7.8% 33.9% 40.2% 18.0% 100.0%
61.2% 54.4% 53.8% 45.7% 52.8%
49 239 286 151 725
49.0 239.0 286.0 151.0 725.0
6.8% 33.0% 39.4% 20.8% 100.0%
100.0% 100.0% 100.0% 100.0% 100.0%
Count
Expected Count
% within A1 性别
% within A3 文化程度
Count
Expected Count
% within A1 性别
% within A3 文化程度
Count
Expected Count
% within A1 性别
% within A3 文化程度
1 男
2 女
A1 性别
Total
1 小学或以下
2 初中或中技
3 高中或中专
4 大专及以上
A3 文化程度
Total
新闻传播学院新闻传播学院
10
NA7 月平均收入 * A3 文化程度 Crosstabulation
37 160 112 41 350
23.7 115.2 138.0 73.1 350.0
10.6% 45.7% 32.0% 11.7% 100.0%
75.5% 67.2% 39.3% 27.2% 48.4%
10 63 116 71 260
17.6 85.6 102.5 54.3 260.0
3.8% 24.2% 44.6% 27.3% 100.0%
20.4% 26.5% 40.7% 47.0% 36.0%
2 15 57 39 113
7.7 37.2 44.5 23.6 113.0
1.8% 13.3% 50.4% 34.5% 100.0%
4.1% 6.3% 20.0% 25.8% 15.6%
49 238 285 151 723
49.0 238.0 285.0 151.0 723.0
6.8% 32.9% 39.4% 20.9% 100.0%
100.0% 100.0% 100.0% 100.0% 100.0%
Count
Expected Count
% within NA7 月平均收入
% within A3 文化程度
Count
Expected Count
% within NA7 月平均收入
% within A3 文化程度
Count
Expected Count
% within NA7 月平均收入
% within A3 文化程度
Count
Expected Count
% within NA7 月平均收入
% within A3 文化程度
1.00 500元以下
2.00 501-1000元
3.00 1000元以上
NA7
月平均收入
Total
1 小学或以下
2 初中或中技
3 高中或中专
4 大专及以上
A3 文化程度
Total
新闻传播学院新闻传播学院
11
用于两个变量间独立性检验的卡方检验用于两个变量间独立性检验的卡方检验独立性检验独立性检验 ——
两个变量之间是相互独立还是存在某种关联性。两个变量之间是相互独立还是存在某种关联性。
Chi-Square Tests
4.823
a
3,185
4.833 3,184
3.850 1,050
725
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value df
Asymp.
Sig.
(2-sided)
0 cells (.0%) have expected count less than 5,The
minimum expected count is 23.11.
a,
Chi-Square Tests
90.957
a
6,000
95.396 6,000
80.898 1,000
723
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value df
Asymp.
Sig.
(2-sided)
0 cells (.0%) have expected count less than 5,The
minimum expected count is 7.66.
a,
新闻传播学院新闻传播学院
12
独立性检验的卡方值计算公式独立性检验的卡方值计算公式
∑∑
=
e
e
f
ff
2
02
)(
χ
期望频次观测频次
Chi-Square
自由度 df = (c-1)(r-1)
3
新闻传播学院新闻传播学院
13
卡方检验的局限性卡方检验的局限性
1、卡方值随变量分类的不同而改变、卡方值随变量分类的不同而改变
2、样本含量不能太小,也不宜太大、样本含量不能太小,也不宜太大用用 列联系数列联系数 C来修正来修正
3、列联表中期望频次小于、列联表中期望频次小于 5的单元不能超过的单元不能超过 20%
4、对于数量型的变量,卡方检验无法揭示其数量性质、对于数量型的变量,卡方检验无法揭示其数量性质新闻传播学院新闻传播学院
14
一般性原则一般性原则只要有数量型的变量出现,就应该采用只要有数量型的变量出现,就应该采用可以揭露他们的数量性质的统计分析工具可以揭露他们的数量性质的统计分析工具
(例如:两个样本的(例如:两个样本的 t检验、方差分析、回检验、方差分析、回归等)来分析。归等)来分析。 X
2
检验更适用于定类变量。检验更适用于定类变量。
新闻传播学院新闻传播学院
15
一个实际应用案例一个实际应用案例 ——新产品名称的测试新产品名称的测试
1,名字应该使消费者联想到正确的产品。名字应该使消费者联想到正确的产品。
2,名字应该使消费者有最接近正确产品的感觉。名字应该使消费者有最接近正确产品的感觉。
对新产品来说,产品名称是消费者认识和识别该产品的核心要素,对新产品来说,产品名称是消费者认识和识别该产品的核心要素,
是形成品牌概念的基础。为新产品起一个好的名字是非常重要的,是形成品牌概念的基础。为新产品起一个好的名字是非常重要的,
好的名字至少应该满足下列两个条件:好的名字至少应该满足下列两个条件:
新闻传播学院新闻传播学院
16
下面我将列出一些名词:下面我将列出一些名词:
请您判断一下它们最象什么商品的名称?(出示卡片,只选一项)请您判断一下它们最象什么商品的名称?(出示卡片,只选一项)
拟定中的新产品名称拟定中的新产品名称,波澜波澜,同其它同其它 7个模拟的名称一起测试。个模拟的名称一起测试。
问卷中的问题如下:问卷中的问题如下:
1,清爽清爽 2,甘甜甘甜 3,欢快欢快 4,纯净纯净 5,安闲安闲 6,个性个性
7,兴奋兴奋 8,高档高档 9,其它其它
1,雪糕雪糕 2,纯水纯水 3,碳酸饮料碳酸饮料 4,果汁饮料果汁饮料 5,保健食品保健食品 6,空调空调
7,洗衣机洗衣机 8,毛毯毛毯 9,其它其它这些名称最能使您产生什么感觉?(出示卡片,只选一项)这些名称最能使您产生什么感觉?(出示卡片,只选一项)
新闻传播学院新闻传播学院
17
玉泉 雪源 春溪 期望 波澜 天山绿 中美纯 雪浪花雪糕 50 442 27 21 14 50 20 258
纯水 508 110 272 51 83 88 605 79
碳酸饮料 55 68 93 36 71 47 37 77
果汁饮料 109 95 149 41 36 125 43 65
保健食品 34 29 45 302 37 135 42 18
空调 11 28 112 146 113 39 20 31
洗衣机 20 12 54 64 365 13 8 210
毛毯 2 4 17 36 29 272 9 35
清爽 368 322 167 53 57 129 149 170
甘甜 237 237 142 41 34 95 119 116
欢快 19 25 185 105 123 44 22 193
纯净 142 140 128 47 38 123 330 68
安闲 16 16 106 166 81 164 21 36
个性 2 14 9 72 94 41 37 42
兴奋 4 11 10 78 248 35 17 81
高档 3 5 19 107 63 126 63 49
16×8 的列联表的列联表名称名称 X、,产品联想产品联想 Y 和感觉和感觉 Z 的对应表的对应表 ----频数频数新闻传播学院新闻传播学院
18
对于一个16×8的列联表,用7-维空间才能完满地对其进行解释(100%),但是,可能有70%的对应表的惯量刚好保留在二 维空间,从实用角度讲,用二维空间解释是可以接受的,也更易于理解。
在品牌测试中,有三个名义变量X,Y,Z,我们可以简单地将第三个变量Z附加在第二个变量Y上,构造一个新的二维表格,
X
Y
Z
4
新闻传播学院新闻传播学院
19
对应分析可以采用两种方法处理上面的表格:对应分析可以采用两种方法处理上面的表格:
(( 1)在分析过程中,将变量)在分析过程中,将变量 Y和和 Z作为一个新的行变量(处置作为一个新的行变量(处置 1););
(( 2)对应分析只基于变量)对应分析只基于变量 X和和 Y,,而将变量而将变量 Z作为附加行变量(处置作为附加行变量(处置 2),),
这意味着变量这意味着变量 Z的各类只是空间中的附加点,并不影响二维空间的属性,包的各类只是空间中的附加点,并不影响二维空间的属性,包括行、列得分,维度,坐标轴和方向。括行、列得分,维度,坐标轴和方向。
这里这里 X=名称,名称,Y=产品,产品,Z=感觉,其中感觉,其中 Y+Z=形象,作为一个新的变量。形象,作为一个新的变量。
新闻传播学院新闻传播学院
20
X
Y
X
Z
两种情况都有两种情况都有 8行和行和 8列,如果数据是完全随机的没有显著的依赖关列,如果数据是完全随机的没有显著的依赖关系,则从每个轴抽取的平均惯量应该能解释总惯量的系,则从每个轴抽取的平均惯量应该能解释总惯量的 100/(( 8-1)) =14.3%,,
因此,任何贡献大于因此,任何贡献大于 14.3%的轴都被认为是重要的、不宜省略的,应该包括的轴都被认为是重要的、不宜省略的,应该包括在解的空间中。在解的空间中。
( 1)
( 2)
Z
Y
x
( 3_1)
Z
Y
x
( 3_2)
新闻传播学院新闻传播学院
21
-1.5
-1
-0.5
0
0.5
1
1.5
2
-1.5 -1 -0.5 0 0.5 1 1.5
雪源雪浪花波澜期望 天山绿中美纯玉泉春溪雪糕洗衣机空调碳酸饮料毛毯 保健食品纯水果汁饮料第一种情况中的行、列变量类得分(可解释 61.7%)
新闻传播学院新闻传播学院
22
-1.5
-1
-0.5
0
0.5
1
1.5
-1.5 -1 -0.5 0 0.5 1 1.5 2
玉泉雪浪花 波澜期望天山绿中美纯雪源春溪 I
清爽甘甜兴奋欢快个性纯净安闲高档第二种情况的行、列变量类得分(可解释 77.7%)
新闻传播学院新闻传播学院
23
-1.5
-1
-0.5
0
0.5
1
1.5
2
-1.5 -1 -0.5 0 0.5 1 1.5
雪糕雪源清爽甘甜雪浪花洗衣机兴奋波澜欢快个性空调碳酸饮料期望毛毯保健食品 天山绿中美纯纯水纯净玉泉果汁饮料春溪安闲高档
3-1 行、列变量类得分(可解释 63.5%,处置 1)
新闻传播学院新闻传播学院
24
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-1.5 -1 -0.5 0 0.5 1 1.5 2
雪糕雪源清爽甘甜雪浪花洗衣机兴奋波澜欢快个性空调碳酸饮料期望毛毯保健食品天山绿中美纯纯水纯净玉泉果汁饮料春溪 I
安闲高档
3-2 的行、列变量类得分(可解释 77.7%,处置 2)
5
新闻传播学院新闻传播学院
25
表 5:对应分析过程的最终汇总统计量
1,572,328,594,594
2,318,101,183,777
3,267,071,129,906
4,210,044,080,986
5,077,006,011,997
6,038,001,003,999
7,018,000,001,1.000
Total,552 1.000 1.000
维度
( Dimension)
奇异值
( Singular Value)
惯量
( Inertia)
惯量比例( Proportion of Inertia)
比例 累计比例卡方( Chi Square) = 3312.225 概率值( Significance p) =.000