zf
第七章 对应分析
2011-10-16 2
cxt
对应分析的重点
? 1、什么是对应分析?
? 2、理解对应分析的基本思想
? 3、对应分析的基本步骤
? 4、结合 SPSS软件进行案例分析
2011-10-16 3
cxt
7,1 交叉列联表
描述属性变量(定类或定序尺度变量)的各种状态
或是相关关系。
例:研讨患肺癌与吸烟是否有关?
是否吸烟
是否
患肺癌
吸烟 不吸烟 合计
患肺癌 60 3 63
未患肺癌 32 11 43
合计 92 14 106
2011-10-16 4
cxt
? 当属性变量 A和 B的状态较多时,很难透过列联表作出
判断。
? 怎样简化列联表的结构?
利用降维的思想 。如因子分析和主成分分析。 但因子分
析的缺陷 是在于无法同时进行 R型因子分析和 Q型因子
分析。
? 怎么办?
2011-10-16 5
cxt
***7,2 对应分析的基本理论
? 1、什么是对应分析?
对应分析是利用, 降维, 的方法,以两变量的 交叉
列联表 为研究对象,通过图形的方式,直接揭示变量
之间以及变量的不同类别之间的联系,特别适合于多
分类属性变量研究的一种多元统计分析方法。
? 2、对应分析的基本思想,
首先,编制两品质型变量的交叉列联表,将交叉列联表中的每个
数据单元看成两变量在相应类别上的对应点;
然后,对应分析将变量及变量之间的联系同时反映在一张二维或
三维的散点图上,并使联系密切的类别点较集中,联系疏远的类别
点较分散;
最后,通过观察对应分布图就能直观地把握变量类别之间的联
系,
2011-10-16 6
cxt
? 3、对应分析的一大特点,
可以在一张二维图上同时表示出两类属性变量的各种
状态,以直观描述原始数据结构。
? 对应分析的关键问题是,
? 如何将多个类别点表示在低维空间中,以便于直接观察
? 如何确定各类别点的坐标,以易于鉴别类别间联系的强弱
2011-10-16 7
cxt
7,3对应分析的基本步骤
? 1、编制交叉列联表并计算概率矩阵P
? 2、根据P矩阵确定数据点坐标
? 3、行变量和列变量的分类降维处理
2011-10-16 8
cxt
7,4 对应分析的基本操作和案例
? 1、对应分析的基本操作,
2011-10-16 9
cxt
第8章 典型相关分析
2011-10-16 10
cxt
? 现实中,如鸡蛋、猪肉的价格(作为第一组变量)和
相应产品的销量(第二组变量)有相关关系。如投资
性变量(劳力投入、财力投入、固定资产投资等)与
国民收入(工农业收入、建筑业收入、等)具有相关
关系。
? 如何研究两组变量之间的相关关系?
设两组变量用 X1,X2….,XP以及 Y1,Y2…YP表示。
( 1)分别研究 Xi和 Yj之间的相关关系,列出相关系数表。
其缺陷,当两组变量较多时,处理较烦琐,不易抓住
问题的实质。( 2)采用主成分分析的方法,每组变量
分别提取主成分,再通过主成分之间的关系反映两组
变量之间的关系。
2011-10-16 11
cxt
例:鸡蛋、猪肉的价格用 X1和 X2表示;鸡蛋、猪肉的销量
用 Y1和 Y2表示。
构造第一组和第二组变量的线性组合,
F1=a11X1+ a12X2 Z1=a11Y1+ a12Y2 满足 F1和 Z1的相关
性最大化。
典型相关分析
2011-10-16 12
cxt
? 1、什么是典型相关分析?
? 典型相关分析是研究两组变量之间相关关
系的多元统计分析方法.它 借用主成分分析降
维的思想,分别对两组变量提取主成分,且使
两组变量提取的主成分之间的相关程度达到最
大,而从同一组内部提取的各主成分之间互不
相关,用从两组之间分别提取的主成分的相关
性来描述两组变量整体的线性相关关系,
2011-10-16 13
cxt
? 典型相关关系研究两组变量之间整体的线性相关关系,
它是将每一组变量作为一个整体来进行研究而不是分
析每一组变量内部的各个变量.所研究的两组变量可
以是一组为自变量,而另一组变量为因变量;两组变
量也可以是同等的地位,但典型相关关系要求两组变
量都至少是间隔尺度,
2011-10-16 14
cxt
第 9章 定性数据的建模分析
2011-10-16 15
cxt
对定性变量间关系的描述可用交叉列联表。但交叉
列联表存在以下缺陷,
( 1)不能充分分析多变量交互效应,不能有效分析
多变量之间的关联。
( 2)在进行两个变量之间的关联分析时缺乏对其
他变量影响的有效控制。
( 3)不能准确定量描述一个变量对另一个变量的
作用幅度。
如何避免以上缺陷,充分揭示出定性变量之间的复杂关系?
2011-10-16 16
cxt
( 1)对数线性模型
将概率取对数后分解处理,
概率表,
B
A
吸烟 不吸烟 合计
患肺癌 P11 P12 P1,
未患肺癌 P21 P22 P2,
合计 P.1 P.2 1
ji
ij
ji
ji
ij
jiij pp
ppp
pp
pppp lnlnlnlnln
...,??????
?
???
??
2011-10-16 17
cxt
其优点是可以把方差分析和线性模型方法相结合,
估计模型中各个参数,而这些参数值使各个变量的效
应和变量间的交互作用效应得以数量化。
( 2) Logistic 模型
是将概率比取对数后,再进行参数化而获得。设因
变量 y为二值定性变量,用 0和 1表示两个不同状态,
y=1的概率 p= P( y=1)是研究对象。若有多个因素影响 y
的取值,这些因素就是自变量,记为,x1,x2…xk(既
可以是定性变量也可以是定量变量)。 Logistic 线
性回归模型,
kk xaxaapp ?????,...1ln 110