第十四讲,关联分析
两个变量之间的关联的类型
刻画两个变量之间的关联
在 SPSS软件支持下用卡方法分析
交叉表的关联显著性
教学指南
学习目标
——了解两个变量之间, 关联, 的含义
——检验被理解为关联的各种关系
——了解在何时和怎样使用卡方分析
——逐步熟悉运用 SPSS来进行相关关系
的分析
两个变量之间的关联的类型
非单调关联 ——指一个变量的存在
(或不存在)与另一个变量的存在
(或不存在)系统上关联
单调关联 ——具有显著方向的关联。
包括单调增和单调减
线性关联 ——指两个变量之间存在
线性关系,可用方程 表达。
曲线关联 ——指可用曲线表达的关联。
bxay ??
刻画两个变量之间的关联
关联根据其类型可用三种方式来刻画
——存在
——方向
——关联的强度
交叉表
交叉表 ( cross-tabulation table)的形
式 ——用行与列的形式对比表示数
据交叉表的制作 ——利用 SPSS可直接
生成
交叉表的作用 ——交叉表和相关的
卡方值常用来评估两个名义量度变
量之间是否存在非单调型关系
米切罗伯淡啤酒 ——原数据
购买 不买 总计
职业
状况
白领 152 8 160
蓝领 14 26 40
合计 166 34 200
米切罗伯淡啤酒 ——原表频率
购买 不买 总计
职业
状况
白领 76%( 152) 4%( 8) 80%( 160)
蓝领 7%( 14) 13%( 26) 20%( 40)
合计 83%( 166) 17%( 34) 100%( 200)
米切罗伯淡啤酒 ——列频率表
购买 不买 总计
职业
状况
白领 92%( 152) 24%( 8) 80%( 160)
蓝领 8%( 14) 76%( 26) 20%( 40)
合计 100%( 166) 100%( 34) 100%( 200)
米切罗伯淡啤酒 ——原表行频率表
购买 不买 总计
职业
状况
白领 85%( 152) 15%( 8) 100%( 160)
蓝领 35%( 14) 65%( 26) 100%( 40)
合计 83%( 166) 17%( 34) 200
卡方分析
卡方分析 ( SHI-SQUARE
ANALYSIS)是检测交叉表中的
两个名义变量的频率以确定两个
变量之间是否存在非单调型关系
卡方分析常常以两个名义变
量之间不存在关联起始假设
观察频率与预测频率
预测频率( expected frequencies ) —
—是以假设两变量之间 无关联 推导出来的
值 。
观察频率( observed frequencies) —
—是交叉表中的单元数据值。与预测频
率相对应的是预测频率。
卡方 的计算2X
计算步骤:
第一步 ——计算预测频率值
第二步 ——计算 值。
第三步 ——卡方是预测频率值和观
测频率值差异的一个真实、综合的
反映。
2X
根据上述资料计算
8.6
2 0 0
3440
2.33
2 0 0
1 6 640
2.27
2 0 0
341 6 0
8.1 3 2
2 0 0
1 6 61 6 0
?
?
?
?
?
?
?
?
?
?
?
?
蓝领非买者
蓝领购买者
白领非买者
白领购买者
例题中的 卡方值
? ?
? ? ? ? ? ? ? ?
64.81
2
X
8.6
2
8.626
2.33
2
2.3314
2.27
2
2.278
8.1 3 2
2
8.1 3 21 5 22
X
n
1i
预测频率值 观察频率值
2
X
?
?
?
?
?
?
?
?
?
?
?
?
?
预测频率值
2X
卡方分布
分布
1.定义:相互独立且服从 N( 0,1)分布的随机变量,则称随机变
量所服从的分布是自由度为 n的分布,且记。它的概率密度函数为
其中,是仅与 n有关的常数。 f( x,n)的图形随 n的不同而不同。
2,分布的随机变量的期望与方差为:
3,查表:对于给定的 α,0<α<1,可在分布表中查得,即
卡方分布的特征
卡方分布 ——向右倾斜,其拒绝
区域总是在分布的右尾部。卡方分布
的形状由自由度的数值确定。自由度
的数值越大,曲线的尾巴越向右拉。
自由度的计算公式为:
自由度 =( r-1) *( c-10)
式中,r是行数,c是列数
如何解释卡方结果
卡方分析 ——只是一个确定两变量
之间是否存在非单调关联的方法。
它不能显示关联的本质,而只能根
据其大小,粗略地显示关联的强度。
如果计算出的卡方值小,说明
零假设或者说两个变量间的独立性
假设是真的,反之,则不成立。
在 SPSS下用卡方法分析交叉表的关联显著性
操作方法,用视窗 SPSS进行卡
方分析,命令序列为:
STATISTICS-SUMMARIZE-
CROSSTABS,它产生一个对话框,
在里面选出进行卡方分析的变量。
对话框中的底部有三个选择按纽,
在 cells选项引出了观测频率、预测
频率、行频率和列频率等。
相关系数与协方差
相关系数 ——是一个指数数据。它被定
义在 -1至 +1之间,表达了两个变量之间关联的
强度和方向性。也即关联系数显示了两个变量
的之间的共变的度。而共变定义为一个变量随
着另一个系统相关的变量变化而变化。
不管绝对数值如何,没有统计显
著性的相关系数一点意义也没有 。
相关分析
概念 种类 线性相关
变量之间关系
函数关系
相关关系 因果关系
互为因果关系
共变关系
确定性依存关系
随机性
依存关

种类
一元相关
多元相关负 相 关
正 相 关 线性相关
曲线相关
x
y
正 相 关 x
y
负 相 关 x
y
曲线相关 x
y
不 相 关
线性相关




测定两变量是否线性相关?
yx
xyr
??
?
??
yxn
yyxxr
??
? ??? ))((
定义式:
未分组:
已分组:
? ?? ?
? ? ?
??
???
2222 )()( yynxxn
yxxynr
? ?? ?
? ? ?
???????
??????
])([])([
))((
2222
yyxx
yxxy
fyfynfxfxn
fyfxfyxnr
值:
|r|=0 不存在线性关系; |r|= 1 完全线性相关
0<|r|<1不同程度线性相关 (0~0.3 微弱; 0.3~0.5 低度;
0.5~0.8 显著; 0.8~1 高度 )
符号,r>0 正相关; r<0 负相关




相关系数的检验( t检验)
H0, p=0,H1, p≠0
检验统计量
21
2||
r
nrt
?
??
相关系数大小的差别准则
相关系数范围 关联的强度
± 0.81?± 1.00 强
± 0.61 ?± 0.80 中等
± 0.41 ?± 0.60 弱
± 0.21 ?± 0.40 非常弱
± 0.00 ?± 0.20 没有
皮尔逊积矩相关
皮尔逊积矩相关 ——度量用分布
图描绘的两个区间型和 /或比率型变量
之间的线性关系。皮尔逊积矩相关系
数可以表明是否存在相关,共变方向
和相关程度。
相关系数 r的计算
)yv ar ()xv ar (
)y,xco v (
r ?
r
? ?
?
??
??
?
22 )yy()xx(
)yy)(xx(
相关系数 r的简便计算方法
? ? ??
? ? ?
??
?
?
2222 )y(yn)()x(xn(
yxxyn
r
yx
yxxyr
??
??
简便计算方法
计算相关系数的简化式
? ? ? ? ?
?
?
??
? ?
??
?
??
? ?
?
?
? ?? ?
???
2222 11
1
ynyxnx
yxnxy
r
? ?? ? ? ?? ?? ?? ?
???
??
??
2222 yynxxn
yxxynr
? ?? ?2222 ynyxnx yxnxyr ?? ?? ?? ?
举例说明皮尔逊积矩相关的作用
C or r e l a t i o n s
1,9 9 5 **
,,0 0 0
12 12
,9 9 5 ** 1
,0 0 0,
12 12
P e a r s on C or r e l a t io n
S ig, (2 - t a i l e d )
N
P e a r s on C or r e l a t io n
S ig, (2 - t a i l e d )
N
均消 费支
人均 收入
均消 费支 人均 收入
C o r r e l a t i on is s i g n i f ic a n t a t t h e 0, 0 1 l e v e l
(2- t a il e d ).
* *,
浙江省城市居民人均收入与人均消费
相关
系数检验
在视窗 SPSS下如何获得皮尔逊积矩相关
操作命令序列,
STATISTICS –CORRELATE
–BIVARIATE,产生一个
选择框来确定相关的变量,
可以选择不同类型的相关
线性相关程序的特殊考虑
解释皮尔逊积矩相关要理解里面的
三个假设
相关系数只考虑了两个变量之间的关系
相关系数假设较少考虑原因
皮尔逊积矩相关只解释线性关系
序值相关系数
序值相关系数 ——常用来确
定用排序(次序)度量的变量之
间的非单调关系。
斯皮尔曼序值相关 ( Spearman
rank order correlation) ——是指对
顺序排列的变量进行分析时所用的分析
方法
? ?1nn
d6
1
2
n
1i
2
i
s
r
?
?
?
?
?
?
?
?
?
??
?
?
斯皮尔曼序值相关的计算公式
式中,为斯皮尔曼序值相关,为
配对的序值之差的平方; n为排序的
数目。
sr
2id
根据抗腐蚀能力和洁白牙
齿能力对牙膏品牌的排序
品种 洁白能力 排序 抗腐蚀能 力排序 d d2
佳洁士 5 4 1 1
格理 2 8 -6 36
高露洁 1 6 -5 25
阿默 6 3 3 9
麦可洁 3 5 -2 4
德罗波斯 4 7 -3 9
条纹 8 2 6 36
百事沙 7 1 6 36
例题中的斯皮尔曼序值相关 ? ?
? ?
86.086.11
5 0 4
9 3 6
1
638
9 3 6
1
188
1 5 66
1
1nn
d6
1
s
r
2
s
r
2
n
1i
2
i
s
r
????
??
?
??
?
?
??
?
?
?
?
?
?
?
?
?
??
?
?
在视窗 SPSS下如何获得斯皮尔
曼序值相关和肯德尔 T排序相关
操作命令序列:
STATISTICS
-CORRELATE
-BIVAREATE
勾上
SPEARMAN
选项
相关分析的结论(1)
定性度量 ——提供一个对象的信息
较少,而比率度量提供最多的信息。
标度信息的数量直接影响由适当的检
验输出的信息量。对两个名义度量变
量进行卡方分析所得的信息多。同样,
关联类型也受信息差异的影响。
相关分析的结论(2)
卡方 ——描述的是非单调型关系,
皮尔逊法描述的是线性相关,序值
关联是介于这两者之间的非单调型
关系。
相关分析的结论(3)
零假设 ——贯穿于各种统计检验描
述过程中。零假设是两个名义度量的
变量之间没有关联,相关分析的零假
设是不相关。
本章提要
存在四种可能的关联,即非单调关联、
单调关联、线性关联和曲线关联
相关可由存在、方向和强度来描述
如果不存在关联的零假设被拒绝,营销调研
者就要分析单元百分率,以识别关联的模式,
在区间或比率标度假设的两个问题上,用皮
尔逊积矩相关系数确定线性相关是合适的,
序值相关系数用于分析序值变量
返回
思考与练习题
教材中第461
页的 2、5、8、
9和16 题
课后阅读
,SPSS 10.0 FOR WINDOWS 统计分析,
黄海等编著,人民邮电出版社出版