高等统计学：高级统计学(5_6)

分类：数学格式：ppt 日期：2008年10月07日

主成分分析
1 主成分分析原理
2 理论主成分及主成分选择
3 样本主成分的计算过程
4 主成分分析的 SPSS实现
5 主成分的应用主成分分析原理

1X
2X
1Y
2Y
消除自变量间的相关性与多维变量降维坐标的旋转变换

c o ss i n
s i nc o s
212
211
XXY
XXY

2
1
2
1
c o ss i n
s i nc o s
X
X
Y
Y

正交阵
)()( 21 YDYD?
降维依据
0),C O V ( 21?YY
原理一般化满足（ 1）
（ 2）

XuXuXuXu
XuXuXuXu
XuXuXuXu
Y
Y
Y
X
X
X
X
pppppp
pp
pp
pp
2211
22222121
11212111
2
1
2
1
)()()( 21 pYDYDYD
0),c o v (?ji YY pji,,2,1,
UXY?
正交或 U为正交阵
puuu,,,21?
主成分分析的基本问题
每一个主成分的系数如何确定
如何保留主成分
如何解释主成分主成分系数的确定
前提假设
第一主成分的系数满足：
XuXuXuXuY pp 112121111
0)(?XE),c o v ( XX
11111 m a x),co v (m a x)(m a x uuYYYD
系数的求解
)1( uuuuL?
1uu
uum a x
结论
若的特征值为对应的单位特征向量为：
p21
,
1
12
11
p
u
u
u
,
2
22
21
p
u
u
u
pp
p
p
u
u
u
2
1
,
P个主成分分别是：
且（ 1）
（ 2）或

ppppp
pp
pp
p
XuXuXu
XuXuXu
XuXuXu
Y
Y
Y
2211
2222121
1212111
2
1
piYD ii,,2,1,)(
UXXUYY ),c o v (),c o v (
XUY或
UU
主成分的保留

p
i
i
p
i
i XDYD
11
)()(

p
i
ii
p
i
i
11

主成分总方差 =原变量的总方差
)t r ()t r ( UU
选择主成分的方法 (1)
贡献率,第 i 个主成分的贡献率为
累积贡献率,前 m 个主成分的累积贡献率为
选择法则,保留 m 个主成分
p
j
j
i
ir
1
mm rrr21?
%80?m?
(Cumulative)
选择主成分的方法 (2)
特征值大于 1原则若则保留 m个主成分
1
1
1m
m
主成分的解释
原始指标对各个主成分的贡献相关系数：
保留的 m个主成分对每个的贡献
iX
),( ik XY?
iX
m
k
ik XY
1
2 ),(?
主成分与原指标间的相关系数
XuXuXuXuY pp 112121111
ii ueueuXeXuC O VXYC O V 1111111 ),(),(
i
iii
i
i uXDYD
XYXY
1
1
1
1
1 )()(
),c o v (),(

m个主成分对原始指标的贡献

m
k
kik
m
k ii
iki uXYv
1
2
1
2 1),(?

iX
前 m个主成分提取了中的信息
iX iv
由相关阵求主成分指标标准化
ii
ii
i
XZ

XZZ R),c o v (?
标准化变量的协方差阵为原始变量的相关系数阵
求相关系数阵的特征值：
和对应的单位特征向量：
p21
,
1
12
11
p
u
u
u
,
2
22
21
p
u
u
u
pp
p
p
u
u
u
2
1
,
写出 p个主成分的表达式
pp
pp
p
XuXuXuY

1
22
22
12
11
11
111?
pp
pp
p
XuXuXuY

2
22
22
22
11
11
212?
pp
pp
ppppp
XuXuXuY

22
22
2
11
11
1

前 m 个主成分的累积贡献率：
主成分与标准化指标间的相关系数
p
m
k
k?
1
ii uZY 111 ),(
主成分的方差样本主成分的计算过程
求数据的样本相关系数阵
求的特征值和所对应的单位特征向量,
R
R
p21
pp
p
p
p
pp
u
u
u
u
u
u
u
u
u
u
u
u

2
1
2
22
21
2
1
12
11
1
,,,
(Correlation Matrices)
(Eigenvalues)
(Eigenvectores)
主成分的系数
写出 p个主成分的表达式：
是样本均值,是样本标准差
p
pp
p s
XXu
s
XXu
s
XXuY
1
2
22
12
1
11
111?
p
pp
p s
XXu
s
XXu
s
XXuY
2
2
22
22
1
11
212?
p
pp
ppppp s
XXu
s
XXu
s
XXuY
2
22
2
1
11
1
pXXX,,,21? psss,,,21?
标准化数据

主成分分析的 SPSS实现
Analyze Data Reduction Factor
选取点击点击点击 1
点击 2
点击可选可选可选点击点击点击 1
点击 2
点击 3
可选例题
2005年我国各地区社会发展数据主成分的最后得分点击 1
点击 2
计算命名点击计算命名点击主成分的应用（ 1）
%801?r
利用第一主成分进行综合评价
pp xaxaxacy22111
第一主成分的系数都大于 0
第一主成分的贡献率超过 80%
0ia?
(正向指标 )
主成分综合评价的 SPSS实现
Transform Rank Cases
点击 1
点击 2
可选点击主成分的应用（ 2）
。
pp xaxaxacy 121211111
pp xaxaxacy 222212122
利用第一、二个主成分进行分类若第一、二个主成分的累积贡献率,
则由第一、二个主成分在平面上的散点图，实现对样品进行分类
2 80%
主成分分类的 SPSS实现
Graphs Scatter
确定点击点击点击点击点击主成分回归（应用 3）
y
第二步第三步第一步建立因变量与自变量之间的回归方程若发现自变量之间有多重共线性,利用的样本数据进行主成分分析若主成分的累积贡献率超过 85%，则建立与的回归方程pxxx,,,21? pxxx,,,21?
myyy,,,21?
myyy,,,21?
y
科研案例
韩伟,李钢,主成分分析在地区科技竞争力评测中的应用,数理统计与管理,
2006,25(5):512-517
摘要
近年来对于科技竞争力的研究在国内方兴未艾,其中对于科技竞争力的评测是众多学者研究的重点和热点,也是各级决策者最为关心、最为重要的课题之一。本文根据科技竞争力概念和内涵来确定评测指标体系的构成要素,建立了评测指标体系,并利用主成分分析方法对采集来的数据进行分析,
得到最终的评测结果。
国际竞争力
企业目前和未来在各自的环境中,以比其国内和国外的竞争者更具有吸引力的价格和质量来进行设计生产并销售产品一级提供服务的能力和机会。
—— 1985年世界经济论坛
是一个国家 (地区 ) 或企业在世界市场上均衡的生产出比其他竞争对手更多财富的能力。
—— 1994 年的《国际竞争力报告》
一般综合评价过程综合指标确定权重数据处理选择指标体系区域科技竞争力评价
三级指标体系
将第三级指标混在一起，对混合指标进行主成分分析，利用少数的几个主成分代替第二级指标
利用 DELPH和 AHP方法确定第二级主成分指标和一级指标的权重
最后得到每个一级指标的综合值和每个地区科技竞争力的综合值因子分析
1.因子分析的基本理论
4,因子得分
5.因子分析的 SPSS实现
2,因子分析的数学模型
3,公因子的求法因子分析的数学模型例题 (2005年各地区社会发展数据 )
C o m p o n e n t M a t ri x
a
,8 6 6 -,4 5 6
,7 8 8,4 7 9
,8 8 6 -,3 8 8
,9 2 0 -,3 5 3
,6 6 7,6 7 3
,2 6 1,9 0 7
人均 G D P
新增固定资产城镇可支配收入农村纯收入高校数卫生机构数
1 2
C o m p o n e n t
E x t r a c t i o n M e t h o d,P r i n c i p a l C o m p o n e n t A n a l y s i s,
2 c o m p o n e n t s e x t r a c t e d,a,
主成分分析的结果
1211 4 5 6.08 6 6.0 YYZX
2212 4 7 9.07 8 8.0 YYZX
3213 3 8 8.08 8 6.0 YYZX
4214 3 5 3.09 2 0.0 YYZX
5215 6 7 3.06 6 7.0 YYZX
6216 9 0 7.02 6 1.0 YYZX
R o t a t e d C o m p o n e n t M a t r i x
a
,9 7 8,0 4 3
,4 3 8,8 1 1
,9 6 1,1 1 2
,9 7 3,1 5 9
,2 3 6,9 1 7
-,2 3 2,9 1 5
人均 G D P
新增固定资产城镇可支配收入农村纯收入高校数卫生机构数
1 2
C o m p o n e n t
E x t r a c t i o n M e t h o d,P r i n c i p a l C o m p o n e n t A n a l y s i s,
R o t a t i o n M e t h o d,V a r i m a x w i t h K a i s e r N o r m a l i z a t i o n,
R o t a t i o n c o n v e r g e d i n 3 i t e r a t i o n s,a,
因子分析的结果
1211 043.0978.0 FFZX
2212 811.0438.0 FFZX
3213 112.0961.0 FFZX
4214 159.0973.0 FFZX
5215 9 1 7.02 3 6.0 FFZX
6216 915.0232.0 FFZX
人均 GDP
城镇收入农村收入新增固定资产高校数卫生机构收入因子
1F
发展保障因子
2F
因子分析的基本理论因子分析与主成分分析的共同点通过对相关矩阵的研究将多个变量归结为少数的几个综合变量 (因子 )
因子分析与主成分分析的不同点对主成分难以给出符合实际意义的解释主成分分析仅仅是一般的线性变换需要构造因子模型因子不具线性性因子旋转使变量降维后易解释主成分主成分因子分析因子分析对比图因子分析的数学模型一般形式
1 11 1 12 2 1 1
2 21 1 22 2 2 2
1 1 2 2 1
mm
mm
p p p pm m
X a F a F a F
X a F a F a F
X a F a F a F

矩阵形式
1 1 1 1 2 1 11
2 2 1 2 2 2 22
12
m
m
p p p p m pm
X a a a F
X a a a F
X a a a F

( 1 ) ( ) ( 1 ) ( 1 )P p m m pAF
可实测的 p个指标不可观测的公共因子载荷矩阵特殊因子包括随机误差限制条件
1,m<p
2.
3,
C o v (,) 0F
1
1
()
1
DF

2
1
2
2
2
()
p
D

0)E(,0)E(F
因子分析的具体任务
Two
寻找抽象公因子,通过分析赋予具有实际意义的解释,并给予命名,
iF
One
{}aij
由样本数据估计系数,
Three
建立公共因子与原始变量之间的关系,从而获得每个样本的公因子得分,
因子模型的性质的协方差阵与因子载荷阵之间的关系：
因子载荷阵不是唯一的,若是一个正交阵,则仍是一个载荷阵,
性质 1
性质 2
()A A D
A
A
因子载荷阵的可得性正交旋转使新的因子更有意义
))((X FA
因子模型中各系数以及因子的意义
因子载荷的统计意义若因子模型中各个变量都已经标准化，则因子载荷是第 i个变量与第 j 个公共因子的相关系数，它反映了变量依赖于公共因子的程度。
ija
ijFX aji
变量公共度若因子模型中各个变量都已经标准化，则
2 2 2 212() i i i im iD X a a a22 1iih
变量的公共度
iX
公共度刻画了全部公共因子对变量原始信息的解释能力，公共度越大公共因子的解释能力就越强。
公共因子的方差贡献公共因子对 X的总贡献为：
jF 2
1
p
j ij
i
Sa

公共因子的贡献是一个公共因子对诸变量总方差的贡献，它衡量这个公因子的相对重要程度。

p
i
i
p
i
im
p
i
i
p
i
i
p
i
i aaaXD
1
2
1
2
1
2
2
1
2
1
1
)(
公因子的求法第一步第二步第三步确定初始公因子因子旋转计算因子得分初始公因子的确定（主成分法）
1 1 1 1 1 2 2 1
2 2 1 1 2 2 2 2
1 1 2 2
pp
pp
p p p p p p
X u Y u Y u Y
X u Y u Y u Y
X u Y u Y u Y

1 1 1 1 1 2 2 1 1
2 2 1 1 2 2 2 2 2
1 1 2 2
mm
mm
p p p p m m p
X u Y u Y u Y
X u Y u Y u Y
X u Y u Y u Y

pppppp
pp
pp
p XuXuXuY
XuXuXuY
XuXuXuY
X
X
X
2211
22221122
12211111
2
1
1.
2.
初始公因子是：
载荷的初始估计：
0
ij j ijau
0j j jFY
一般结论
p21
为样本相关系数阵的特征值,是对应的单位正交特征向量，若 m个主成分的累计贡献率大于 85%,则初始载荷阵为：
R
puuu,,,21?
),,,( 22110 mm uuuA
此时：
00222111R AAuuuuuu ppp
因子旋转
理想的因子载荷阵
1 1 1 1 2 1
2 2 1 2 2 1 2
3 3 1 3 2 2 3
4 4 1 4 2 4
X a a
X a a F
X a a F
X a a

近似 1 近似 1
近似 0 近似 0
1F
2F
12{,}XX
34{,}XX
根据的特质命名12{,}XX
根据的特质命名22{,}XX
寻找正交阵使并保证每一列平方元素的方差最大方差最大化正交旋转

pmpp
m
m
bbb
bbb
bbb
A

21
22221
11211
0
m=2时的正交化旋转
4241
3231
2221
1211
0
aa
aa
aa
aa
A
正交变换方差最大准则初始载荷阵

c o ss i n
s i nc o s

4241
3231
2221
1211
0
bb
bb
bb
bb
A
241231221211,,,bbbb
242232222212,,,bbbb
)m a x ( 21 VV?
1V
是的方差,
2V
是的方差
m=3的正交化旋转
434241
333231
232221
131211
0
aaa
aaa
aaa
aaa
A
初始载荷阵正交旋转作用于 1,2列

100
0c o ss i n
0s i nc o s
11
11
434241
333231
232221
131211

aaa
aaa
aaa
aaa
1?
正交旋转作用于 2,3列
2?
正交旋转作用于 1,3列
3?

22
2210
c o ss i n0
s i nc o s0
001

A

33
33
210
c o s0s i n
010
s i n0c o s

A
第 1轮旋转结果第 2轮旋转结果第 3轮旋转结果
103210 AA
每一列元素平方的方差和
)1(V
210A
每一列元素平方的方差和
)2(V
每一列元素平方的方差和
)3(V
3210A
旋转终止条件
)3()2()1( VVV
载荷阵
3210A
)2()3( VV
YES
旋转停止
NO
新一轮旋转因子得分
11 12 1 11
21 22 2 22
12
p
p
m m m p pm
b b b XF
b b b XF
B
b b b XF

1 11 1 12 2 1
2 21 1 22 2 2
1 1 2 2
pp
pp
m m m m p p
F b X b X b X
F b X b X b X
F b X b X b X

1B A R
相关系数阵因子载荷阵标准化因子得分原理
pp XbXbXbF 12121111

ppppppppFXp
ppppFX
ppppFX
rbrbrbXbXbXbXEa
rbrbrbXbXbXbXEa
rbrbrbXbXbXbXEa
p 121211112121111
21221221111212111221
11121211111212111111
)]([
)]([
)]([
1
12
11

ppppp
p
p
p b
b
b
rrr
rrr
rrr
a
a
a
1
12
11
21
22221
11211
1
21
11

pp XbXbXbF 22221212
ppppp
p
p
p
b
b
b
rrr
rrr
rrr
a
a
a
2
22
21
21
22221
11211
2
22
12

pppp
p
p
aaa
aaa
aaa

21
22221
11211
pppp
p
p
pppp
p
p
bbb
bbb
bbb
rrr
rrr
rrr

21
22212
12111
21
22221
11211
R
1R
因子分析的 SPSS实现
Analyze Data Reduction Factor
点击 1 点击 2
点击 3
可选可选点击点击点击 1
点击 2
点击点击 1
点击 2
点击 3
例题
2005年我国各地区社会发展数据科研案例
候文,对应用主成分进行综合评价的探讨,
数理统计与管理,2006,25(2):211-214
利用主成分分析进行综合评价的优点
可以消除各指标不同量纲的影响
可以消除各指标之间相关性所带来的信息重叠
克服了人为确定权重的问题主成分分析的缺陷
第一主成分的代表性与原变量间的相关性有关。若相关性大，则第一主成分的贡献率大，综合评价的效果也较好。反之，效果较差。
第一主成分的系数可能有正有负，与评价的实际意义不符。
主成分综合评价法的改进第一步第二步第三步利用因子分析将原始变量分组对每一组变量进行主成分分析并保留每一组第一主成分将每一组第一主成分的值综合成最终的评价值读书报告与实验报告（ 3）
根据个人专业研究方向，选择主成分分析和因子分析方面的应用文献三篇，
按要求提交读书报告
根据个人专业研究方向，利用主成分分析或因子分析以及本专业数据，进行实证研究并按要求提交实验报告总复习回归分析
线性回归模型及前提假设
回归方程的显著性检验及其原理
回归方程系数的显著性检验及其原理
自变量间多重共线性的判别方法
残差分析的意义与基本原理
会根据 SPSS的回归结果建立模型并分析模型的显著性、有效性定性数据的建模
列联表分析的意义及假设检验原理
研究对数线性模型的意义
根据 SPSS执行结果分析定性变量之间的关联性
Logistic回归的意义
根据 SPSS执行结果建立 Logistic回归模型并可以分析模型的有效性聚类分析
系统聚类与 K-均值聚类的流程图
五种系统聚类法的定义
系统聚类法的 SPSS实现
K-均值聚类法的 SPSS实现判别分析
距离判别法的基本判别原理
Bayes判别法的基本判别原理
Fisher判别法的基本判别原理
根据 SPSS执行结果给出 Bayes和 Fisher判别函数并能分析这两种方法的有效性
那些检验能反映 Bayes判别法的有效性主成分分析
主成分分析的目的是什么
样本主成分的计算步骤
如何选择主成分
主成分分析的应用主成分回归综合评价
根据 SPSS执行结果写出主成分的表达式并分析贡献率大小因子分析
因子分析的科学意义
因子分析的实现过程 (主成分法 )
根据 SPSS执行结果写出公共因子的表达式并命名
根据公因子表达式给出每个样本的因子得分
主成分分析与因子分析的联系和区别是什么
那些量能反映因子分析结果的有效性？