zf
第五章 主成分分析
2011-10-16 2
cxt
主成分分析的重点
? 1、掌握什么是主成分分析?
? 2、理解主成分分析的基本思想和几何意义?
? 3、理解主成分求解方法:协方差矩阵与相
关系数矩阵的差异?
? 4、掌握运用 SPSS或 SAS软件求解主成分
? 5、对软件输出结果进行正确分析
2011-10-16 3
cxt
5.1 主成分分析的 基本思想
一项十分著名的工作是美国的统计学家斯通
(stone)在 1947年关于国民经济的研究。他
曾利用美国 1929一 1938年各年的数据,得到
了 17个反映国民收入与支出的变量要素,例
如雇主补贴、消费资料和生产资料、纯公共
支出、净增库存、股息、利息外贸平衡等等 。
2011-10-16 4
cxt
? 在进行主成分分析后,竟以 97.4%的精度,
用三新变量就取代了原 17个变量。根据经济
学知识,斯通给这三个新变量分别命名为总
收入 F1,总收入变化率 F2和经济发展或衰退
的趋势 F3。 更有意思的是,这三个变量其实
都是可以直接测量的。斯通将他得到的主成
分与实际测量的总收入 I,总收入变化率 ?I
以及时间 t因素做相关分析,得到下表,
2011-10-16 5
cxt
F1
F2
F3
i
i
t
F1
1
F2
0
1
F3
0
0
1
i
0.995
-0.041
0.057
l
Δ i
-0.056
0.948
-0.124
-0.102
l
t
-0.369
-0.282
-0.836
-0.414
-0.112
1
2011-10-16 6
cxt
? 主成分分析:将原来较多的指标简化为少数
几个新的综合指标的多元统计方法。
? 主成分:由原始指标综合形成的几个新指标。
依据主成分所含信息量的大小成为第一主成
分,第二主成分等等。
2011-10-16 7
cxt
? 主成分分析得到的主成分与原始变量之间的关
系,
1,主成分保留了原始变量绝大多数信息 。
2,主成分的个数大大少于原始变量的数目 。
3,各个主成分之间互不相关 。
4,每个主成分都是原始变量的线性组合 。
2011-10-16 8
cxt
? 主成分分析的运用,
1,对一组内部相关的变量作简化的描述
2、用来削减回归分析或群集分析 (Cluster)中变量
的数目
3,用来检查异常点
4、用来作多重共线性鉴定
5,用来做原来数据的常态检定
2011-10-16 9
cxt
二、数学模型与几何解释-数学模型
? 假设我们所讨论的实际问题中,有 p个指标,我
们把这 p个指标看作 p个随机变量,记为 X1,
X2,…, Xp,主成分分析就是要把这 p个指标的
问题,转变为讨论 p个指标的线性组合的问题,
而这些新的指标 F1,F2,…, Fk(k≤p ),按照
保留主要信息量的原则充分反映原指标的信息,
并且相互独立。
2011-10-16 10
cxt
?这种由讨论多个指标降为少数几个综合指
标的过程在数学上就叫做降维。主成分分
析通常的做法是,寻求原指标的线性组合
Fi。
pppppp
pp
pp
XuXuXuF
XuXuXuF
XuXuXuF
????
????
????
?
??
?
?
2211
22221122
12211111
2011-10-16 11
cxt
? 满足如下的条件,
1、每个主成分的系数平方和为 1。即
2、主成分之间相互独立,即无重叠的信息。即
3、主成分的方差依次递减,重要性依次递减,即
F1,F2….Fp分别称为原变量的第一、第二 ….第 p个主成分。
122221 ???? piii uuu ?
pjijiFFC ov ji,,,,,,),( ?210 ???
)()( 21 pFV arFV arFV ar ??? ?)(
2011-10-16 12
cxt
5.2 数学模型与几何解释-几何解释
? 为了方便,我们在二维空间中讨论主成分的几
何意义,
设有 n个样品,每个样品有两个观测变量 xl和 x2,
在由变量 xl和 x2 所确定的二维平面中,n个样
本点所散布的情况如椭圆状。由图可以看出这 n
个样本点无论是沿着 xl 轴方向或 x2轴方向都具
有较大的离散性,其离散的程度可以分别用观
测变量 xl 的方差和 x2 的方差定量地表示。显
然,如果只考虑 xl和 x2 中的任何一个,那么包
含在原始数据中的经济信息将会有较大的损失。
2011-10-16 13
cxt
? 如果我们将 xl 轴和 x2轴先平移,再同时按
逆时针方向旋转 ?角度,得到新坐标轴 Fl和
F2。 Fl和 F2是两个新变量。
2011-10-16 14
cxt
平移、旋转坐标轴
?
1x
2F
?
?
? ? ?
?
?
? ? ? ?
? ?
?
? ?
?
? ?
? ? ?
?
?
?
? ?
? ? ?
?
?
? ? ?
?
1F2
x
2011-10-16 15
cxt
?
2x
1x
1F
2F
? ? ? ?
?
?
?
?
? ? ? ?
?
?
?
?
? ?
?
?
? ?
?
? ?
? ? ?
?
?
?
? ? ? ?
?
?
平移、旋转坐标轴
2011-10-16 16
cxt
?
2x
1x
1F
2F
? ?
? ? ? ?
?
?
? ?
?
?
?
?
?
?
?
? ?
?
?
?
? ? ?
? ?
?
? ? ?
?
?
平移、旋转坐标轴
?
2011-10-16 17
cxt
? 根据旋转变换的公式,
?
?
?
???
??
??
??
c o ss in
s inc o s
212
211
xxy
xxy
xU ???
?
??
?
??
?
??
?
?
????
??
?
?
2
1
2
1
c o ss i n
s i nc o s
x
x
y
y
??
??
正交矩阵,即有为旋转变换矩阵,它是U ?
IUUUU ???? ?,1
2011-10-16 18
cxt
? 旋转变换的目的,为了使得 n个样品点在 Fl
轴方向上的离散程度最大,即 Fl的方差最大。
(变量 Fl代表了原始数据的绝大部分信息,在
研究某经济问题时,即使不考虑变量 F2也无
损大局 )。 经过上述旋转变换原始数据的大
部分信息集中到 Fl轴上,对数据中包含的信
息起到了浓缩作用。
2011-10-16 19
cxt
? Fl,F2除了可以对包含在 Xl,X2中的信息起着浓
缩作用之外,还具有不相关的性质,这就使得
在研究复杂的问题时避免了信息重叠所带来的
虚假性。二维平面上的个点的方差大部分都归
结在 Fl轴上,而 F2轴上的方差很小。 Fl和 F2称为
原始变量 x1和 x2的综合变量。 F简化了系统结构,
抓住了主要矛盾。
2011-10-16 20
cxt
? 由此可概括出主成分分析的 几何意义,
主成分分析的过程也就是坐标旋转的过程,各
主成分表达式就是新坐标系与原坐标系的转换
关系,新坐标系中各坐标轴的方向就是原始数
据方差最大的方向。
2011-10-16 21
cxt
? 了解了主成分分析的基本思想、数学和几何意义后,问
题的关键,
1、如何进行主成分分析?(主成分分析的方法)
基于相关系数矩阵还是基于协方差矩阵做主成分分析。
当分析中所选择的经济变量具有不同的量纲,变量水平
差异很大,应该选择基于相关系数矩阵的主成分分析。
2、如何确定主成分个数?
主成分分析的目的是简化变量,一般情况下主成分的个
数应该小于原始变量的个数。关于保留几个主成分,应
该权衡主成分个数和保留的信息。
3、如何解释主成分所包含的经济意义?
2011-10-16 22
cxt
5.3 总体主成分的求解及其性质
? 矩阵知识回顾,
( 1)特征根与特征向量
A,若对任意的 k阶方阵 C,有数字 与向量 满
足:,则称 为 C的特征根,为 C的相
应于 的特征向量。
B,同时,方阵 C的特征根 是 k阶方程
的根。
( 2)任一 k阶方阵 C的特征根 的性质,
? ?
??? C? ? ?
?
? 0?? IC ?
j?
对角线上的元素之和矩阵 CCtr
k
j
j ???
?
)(
1
?
2011-10-16 23
cxt
( 3)任一 k阶的实对称矩阵 C的性质,
A,实对称矩阵 C的非零特征根的数目= C的秩
B,k阶的实对称矩阵存在 k个实特征根
C,实对称矩阵的不同特征根的特征向量是正交的
D,若 是实对称矩阵 C的单位特征向量,则
若矩阵,是由特征向量 所构成的,则有,
j?
jjj C ??? ?'
? j?
?
?
?
?
?
?
?
?
?
?
?
k
jj C
?
?
??
?
???
?
0
01
'
2011-10-16 24
cxt
? 主成分分析的目标,
1、从相关的 X1,X2,… Xk,求出相互独立的新综合变量(主成分)
Y1,Y2…Yk。
2,Y=( Y1,Y2…Yk ) ’ 所反映信息的含量无遗漏或损失的指标 —
方差,等于 X=( X1,X2…Xk ) ’的方差 。
X与 Y之间的计算关系是,
如何求解主成分?
AXY
X
X
aa
aa
Y
Y
kkkk
k
k
=即
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?
?
1
1
1111
2011-10-16 25
cxt
? 一、从协方差矩阵出发求解主成分
(一)第一主成分,
设 X的协方差阵为
由于 Σ x为非负定的对称阵,则有利用线性代数的知识可得,
必存在正交阵 U,使得
?
?
?
?
?
?
?
?
?
?
??
p?
?
?
???
?
0
01
UΣU X
?
?
?
?
?
?
?
?
?
?
?
?
??
PPPP
P
P
X
???
???
???
?
???
?
?
21
22221
11211
2011-10-16 26
cxt
? 其中 ?1,?2,…, ?p为 Σ x的特征根,不妨假设 ?1? ?2
? … ??p 。 而 U恰好是由特征根相对应的特征向量所组
成的正交阵。
? 下面我们来看,是否由 U的第一列元素所构成为原始
变量的线性组合是否有最大的方差。
?
?
?
?
?
?
?
?
?
?
?
?
??
pppp
p
p
uuu
uuu
uuu
?
???
?
?
?
21
22221
11211
),,( p1 uuU
? ??? piii uuu,,,?21iU Pi,,2,??
2011-10-16 27
cxt
? 证明:设有 P维正交向量 ? ??? 121111,,,paaa ?a
1 1 1 1 1ppF a X a X ?? ? ? ? aXL
1
2
1
1111 )( aUUaaa
?
?
?
?
?
?
?
?
?
?
?
?
?
?????
p
FV
?
?
?
?
1
2
p
?
?
?
?? ? ? ?
? ? ? ??
? ? ? ?? ???
?? ? ? ? ?
? ? ? ??
? ? ? ?
1
2
1 1 2 p 1
p
u
u
a u,u,,u a
u
L
OM
2011-10-16 28
cxt
? 当且仅当 a1 =u1时,即 时,有
最大的方差 ?1。因为 Var(F1)=U’1?xU1=?1。
? 如果第一主成分的信息不够,则需要寻找第二主成分。
?? ?? pi i1 21 )( ua? ?? ??? pi ii11 auua? aUUa ??? 1? aa?? 1? 1??
1
p
i i i
i
?
?
??? ? a u u a 2
1
()p ii
i
?
?
?? ? au
pp XuXuF 11111 ??? ?
2011-10-16 29
cxt
(二) 第二主成分
在约束条件 下,寻找第二主成分
因为
所以
则,对 p维向量,有
0),c o v ( 21 ?FF
pp XuXuF 21122 ??? ?
0),c o v (),c o v ( 121122121 ???????? uuuuxuxuFF ??
012 ??uu
?? ?? ??????? pi iipi iiiuuFV 1 221 22222 )()( uuuuuu ???
2u ?
?
?? p
i i2
2
2 )( uu 2?
?? ??? pi ii1 22 uuuu 2? 22 uUUu ??? 2? 222u?? ? 2??
2011-10-16 30
cxt
? 所以如果取线性变换,
则 的方差次大。
类推
pp XuXuXuF 22221122 ???? ?
2F
pppppp
pp
pp
XuXuXuF
XuXuXuF
XuXuXuF
????
????
????
?
??
?
?
2211
22221122
12211111
2011-10-16 31
cxt
? 写为矩阵形式,
XUF ??
?
?
?
?
?
?
?
?
?
?
?
?
??
pppp
p
p
uuu
uuu
uuu
?
???
?
?
?
21
22221
11211
),,(
p1
uuU
),,,( 21 ?? pXXX ?X
2011-10-16 32
cxt
? 例1:设 的协方差矩阵为,
从协方差矩阵出发,求解主成分,
(1)求协方差矩阵的特征根
依据 求解,
'321 ),,( xxxx ?
?
?
?
?
?
?
?
?
?
?
?
?
??
200
052
021
0??? I?
2011-10-16 33
cxt
(2)求特征根对应的特征向量
0)2)(2)(2()2)(5)(1(
200
052
021
?????????
?
??
??
??? ????
?
?
?
? I
17.083.52 312 ??? ???
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
000.0
383.0
924.0
1
0
0
000.0
924.0
383.0
321 uuu
2011-10-16 34
cxt
(3)主成分,
(4)各主成分的贡献率及累计贡献率,
第一主成分贡献率,
第二主成分贡献率,
第三主成分贡献率,
211 9 2 4.03 8 3.0 xxF ??
32 xF ?
213 3 8 3.09 2 4.0 xxF ??
7 2 8 7 5.0)17.0283.5/(83.5 ???
25.0)17.0283.5/(2 ???
0 2 1 2 5.0)17.0283.5/(17.0 ???
2011-10-16 35
cxt
第一和第二主成分的累计贡献率,
由此可将以前三元的问题降维为两维问题.第一和第
二主成分包含了以前变量的绝大部分信息 97,87
5%,
97875.0)17.0283.5/()283.5( ????
2011-10-16 36
cxt
? 例2:设 的协方差矩阵为,
从协方差矩阵出发,求解主成分,
(1)求协方差矩阵的特征根
依据 求解,
'321 ),,( xxxx ?
?
?
?
?
?
?
?
?
?
?
??
1 0 0130
412
30216
0??? I?
2011-10-16 37
cxt
0
1 0 0130
412
30216
?
?
?
?
???
?
?
?
? I
44161 0 0223013042303042)1 0 0)(1)(16( ?????????????????? ???
01076)100)(1)(16( ????? ???
738.0469.6793.109 321 ??? ???
(2)求特征根对应的特征向量
2011-10-16 38
cxt
设第一特征根对应的特征向量为,
则有,
?
?
?
?
?
?
?
?
?
?
?
31
21
11
1
u
u
u
u
111 uu ???
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
??
??
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
31
21
11
312111
312111
312111
31
21
11
1
793.109
793.109
793.109
10030
42
30216
100130
412
30216
u
u
u
uuu
uuu
uuu
u
u
u
u
?
?
?
?
?
?
?
?
?
?
?
9 5 1.0
0 4 1.0
3 0 5.0
1u
2011-10-16 39
cxt
? 类似可计算出第二,第三特征根对应的特征向量,
? 第一,二,三主成分表达式,
?
?
?
?
?
?
?
?
?
?
?
?
?
0028.0
992.0
127.0
3u
?
?
?
?
?
?
?
?
?
?
?
?
308.0
120.0
944.0
2u
3213
3212
3211
0 0 2.09 9 2.01 2 7.0
3 0 8.01 2 0.09 4 4.0
9 5 1.00 4 1.03 0 5.0
xxxy
xxxy
xxxy
????
???
???
2011-10-16 40
cxt
? 由前面的特征根可计算各主成分的贡献率及累计贡
献率,
? 第一主成分贡献率
? 第二主成分贡献率,
938.0117/973.109)738.0469.6793.109/(793.109 ????
0 5 5 3.01 1 7/4 6 9.6)7 3 8.04 6 9.67 9 3.1 0 9/(4 6 9.6 ????
2011-10-16 41
cxt
? 从协方差矩阵出发求解主成分的步骤,
1、求解各观测变量
的协方差矩阵。
2,由 X的协方差阵 Σ x,求出其特征根,即解方
程,可得特征根 。
3、求解 可得各特征根对应的特征向量 U1,
U2,…, Up 。
其中最大特征根的特征向量对应第一主成分的系数向量;
第二大特征根对应的特征向量是第二大主成分的系数向
量 ·····
0??? I?
iii uu ???
? ? )21(21 nlxxx plll,,,,,,?? ???lX
021 ???? p??? ?
)(21 pkkiF ????,,,,?XU ii
2011-10-16 42
cxt
4,计算累积贡献率,给出恰当的主成分个数。
5、计算所选出的 k个主成分的得分。将原始数据的中
心化值,
代入前 k个主成分的表达式, 分别计算出各样本 k个
主成分的得分 。
? ???????? ppiii xxxxxx,,,?2211* XXX ii
2011-10-16 43
cxt
? 二、由相关矩阵求解主成分
当分析中所选择的经济变量具有不同的量纲,变量水
平差异很大,应该选择基于相关系数矩阵的主成分分析。
量纲对于主成分分析的影响及消除方法 —— 对数据进
行标准化处理,以使每一个变量的 均值为 0,方差为 1。
? ?
)(
*
i
ii
i XD
XEXX ??
2011-10-16 44
cxt
数据标准化后,总体的协方差矩阵与总体的相关系数相等,
),c o v (
)()(
),c o v (
))(())() ) (((),c o v (
**
**
**
********
ji
ji
ji
ij
jijjiiji
XX
XDXD
XX
XXEXEXXEXEXX
?
?
?
?????
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
1
1
1
21
212
112
?
???
?
?
pp
p
p
??
??
??
2011-10-16 45
cxt
? 主成分与原始变量的关系式为,
))(()( 1* 21 XEX ?????? ?UXUF
2011-10-16 46
cxt
? 例:企业经济效益综合分析。用 5个经济指
标进行考核。用相关系数矩阵法求解主成分。
其中计算出的相关系数矩阵为,
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
???
1499.04168.07316.05621.0
13668.04244.03475.0
14545.07536.0
14532.0
1
?
2011-10-16 47
cxt
( 1)计算其特征值,
( 2)各特征值的累计方差贡献率为,
( 3)从以上方差贡献率看,k=2时主成分个数较为合适。
对应的特征向量为,
049.0206.0331.0719.1695.2 54321 ????? ?????
0 0 0.19 9 0.09 4 9.08 8 3.05 3 9.0/
1
p
j
k
k?
?
?
21 ??和
? ?520.0074.0470.0503.0501.01 ??u
? ?305.0744.0388.0285.0348.02 ??u
2011-10-16 48
cxt
( 4)建立第一和第二主成分,
*5*4*3*2*11 5 2 0.00 7 4.04 7 0.05 0 3.05 0 1.0 xxxxxF ?????
*5*4*3*2*12 3 0 5.07 4 4.03 8 8.02 8 5.03 4 8.0 xxxxxF ??????
2011-10-16 49
cxt
1
0.577
0.509
0.0063
0.0037
0.577
1
0.599
0.389
0.52
0.509
0.599
1
0.436
0.426
0.387
0.389
0.436
1
0.523
0.462
0.322
0.426
0.523
1
2011-10-16 50
cxt
? 从相关系数矩阵出发求解主成分的步骤,
1、标准化各观测变量数据。
2、求解标准化各观测变量的相关系数矩阵。
2、根据矩阵知识 求解相关系数矩阵的特征根。
3、求解各特征根对应的特征向量。
其中最大特征根的特征向量对应第一主成分的系数向量;
第二大特征根对应的特征向量是第二大主成分的系
数向量 ·····
iii uu ?? ?
0?? I??
2011-10-16 51
cxt
三、主成分性质
1,主成分 的协方差阵为对角阵
2,P个随机变量的总方差为 协方差矩阵 ?的 所有特征根之和
说明主成分分析把 P个随机变量的总方差分解成为 P个不相关的
随机变量的方差之和 。
当进行相关系数矩阵求解主成分, 各变量标准化后, 则 p个主成
分总的方差之和等于 p。
?? ?pi iFV a r1 )(
ppp ?????? ??????? ?? 221121
?? ?pi iFV a r1 )(
ppp ?????? ??????? ?? 221121
2011-10-16 52
cxt
3,贡献率,
第 i个主成分的方差在全部方差中所占比重,
称为贡献率,反映了原来 P个指标多大的信息,有多大
的综合能力。
4、累积贡献率,
前 k个主成分共有多大的综合能力,用这 k个主成分的
方差和在全部方差中所占比重
来描述,称为累积贡献率。
??pi ii 1??
?? ?? pi iki i 11 ??
2011-10-16 53
cxt
5.原始变量与主成分之间的相关系数(因子负荷量)
和 的相关密切程度与对应线性组合系数向量成正比,与主
成分标准差成正比,与原始变量 的标准差成反比。
当原始变量标准化后,标准化变量与主成分的相关关系,
ii
jij
jii
jij
ji
uu
Fx
?
?
??
?
? ??),(
ix jF
ix
jijji uFx ?? ?),(
2011-10-16 54
cxt
pmmj ??,,,2,1 ?
1 1 1 1 2 1 1
2 2 1 2 2 2 2
12
p
p
p p p p p p
x u u u F
x u u u F
x u u u F
? ? ? ? ? ?
? ? ? ? ? ?
? ? ? ? ? ??
? ? ? ? ? ?
? ? ? ? ? ?
? ? ? ? ? ?? ? ? ? ? ?
L
L
M
M M M M
L
XUF ?? XUF ?
ppjjjj xuxuxuF ???? ?2211
1 1 2 2(,) (,)i j i i ip p j ij jC o v x F C o v u F u F u F F u ?? ? ? ? ?L
ii
jij
jii
jij
ji
uu
Fx
?
?
??
?
? ??),(
2011-10-16 55
cxt
5.4 样本主成分求解
? 变量 X
? 样本协方差为总体协方差的无偏估计
? 相关矩阵 R为总体相关矩阵的估计
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
pppp
p
p
xxx
xxx
xxx
X
?
????
?
?
21
22221
11211
? ?? ??
?
???
??
n
k
jkjiki xxxxnS
11
1
2011-10-16 56
cxt
?
?
?
?
?
?
?
?
?
?
?
?
?
?
???
?????
p
UUSUXUUXY
?
?
?
.,,
)c o v ()c o v ()c o v (
2
1
若 X已标准化,则可用相关矩阵代替协方差矩阵
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
????
?????
???
ppppp
p
p
pppp
p
p
pppp
p
p
uuu
uuu
uuu
uuu
uuu
uuu
rrr
rrr
rrr
UUR
UUURU
UUR
?
?
?
...
...
............
...
...
...
............
...
...
...
............
...
...
2
1
21
22221
11211
21
22221
11211
21
22221
11211
2011-10-16 57
cxt
0)(...
...
0...)(
0...)(
...
...
...
...
11122111
12121221112
11121211111
11122111
1121212221112
1111112121111
?????
?????
?????
????
????
????
ppppp
pp
pp
pppppp
pp
pp
ururur
ururur
ururur
uururur
uururur
uururur
?
?
?
?
?
?
2011-10-16 58
cxt
0
0
0
.,,
.,,.,,.,,.,,
.,,
.,,
1
121
212221
112111
??
??
?
?
?
?
IR
IR
rrr
rrr
rrr
i
pppp
p
p
?
?
?
?
?
λ为相关矩阵的
特征值
2011-10-16 59
cxt
? 将 R的特征根依大小顺序排列
? 其对应的特征向量记为 U1,U2,…,Up
说明 y1有最大方差,y2有次大方差。。。
jijiji
iii
RUUXUXUyy
XUy
XUy
?????
???
???
),c o v (),c o v (
)v a r ()v a r (
)v a r ()v a r ( 111
?
?
2011-10-16 60
cxt
? ? 00...1...00
0
...
1
...
0
0
))((
)(),c ov (
1
1
1
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
???
?????
?
?
?
?
?
?
p
t
t
jtti
p
t
t
jtt
p
t
tiijji
UUUU
UUUURuuFF
?
?
?
说明新的综合指标即主成分彼
此不相关
2011-10-16 61
cxt
? 样本主成分的性质,
1、第 K个主成分 yk的系数向量是第 K个特征根 λ k所对应
的标准化特征向量。
2、第 K个主成分的方差为第 K个特征根 λ k,且任意两
个主成分都是不相关的,也就是 y1,y2,…,yp的样本
协方差矩阵是对角矩阵
3、样本主成分的总方差等于原变量样本的总方差,为
p
4,第 K个样本主成分与第 j个变量样本之间的相关系数
为,(因子载荷量)
kjk u?
2011-10-16 62
cxt
5.5 主成分个数的确定以及主成分分析的实现
? 一、主成分个数的选取
1.累积贡献率达到 85%以上
2.根据特征根的变化来确定
数据标准化情况下,
3.作碎石图
描述特征值的贡献
?? ?i
11
1
?? ?
?
p
i
ip ??
Scree Plot
Component Number
654321
Eigenvalue
4
3
2
1
0
2011-10-16 63
cxt
? 二、主成分的解释,
? Use the loadings or coefficients to determine
which variables are influential in the formation
of principal components,and then assign a
meaning or label to the principal component,
? Recall standard loadings = coefficient *
standard deviation of PRINi
2011-10-16 64
cxt
? Note SPSS presents loading,SAS PROC
FACTOR EV gives coefficients,The numbers
under the factor pattern in SAS output are
loading
? Researchers have used a loading of 0.5 as
cutoff point
? PC do not necessarily have meaning,They are
mathematical results
2011-10-16 65
cxt
例:基于相关系数矩阵的主成分分析 。 对美国纽约上市的
有关化学产业的三支股票和石油产业的 2支股票做了
100周的收益率调查 ( 1975年 1月- 1976年 10月 ) 。
1) 利用相关系数矩阵做主成分分析 。
2)决定要保留的主成分个数,并解释意义。
2011-10-16 66
cxt
( 1)相关系数矩阵,
1
0.577
0.509
0.0063
0.0037
0.577
1
0.599
0.389
0.52
0.509
0.599
1
0.436
0.426
0.387
0.389
0.436
1
0.523
0.462
0.322
0.426
0.523
1
2011-10-16 67
cxt
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative
PRIN1 2.85671 2.04755 0.571342 0.57134
PRIN2 0.80916 0.26949 0.161833 0.73317
PRIN3 0.53968 0.08818 0.107935 0.84111
PRIN4 0.45150 0.10855 0.090300 0.93141
PRIN5 0.34295, 0.068590 1.00000
Eigenvectors
PRIN1 PRIN2 PRIN3 PRIN4 PRIN5
X1 0.463605 -.240339 -.611705 0.386635 -.451262
X2 0.457108 -.509305 0.178189 0.206474 0.676223
X3 0.470176 -.260448 0.335056 -.662445 -.400007
X4 0.421459 0.525665 0.540763 0.472006 -.175599
X5 0.421224 0.581970 -.435176 -.382439 0.385024
2011-10-16 68
cxt
2011-10-16 69
cxt
2011-10-16 70
cxt
? Interpretation,
1,PRIN1 is approximately an equally
weighted average of 5 stocks,It might be called
a market component
2,PRIN2 contrast between AC,DP,UC
(chemical stocks) versus EX,TE (oil stocks),It
might be called an industry component
2011-10-16 71
cxt
? 三、主成分分析的步骤 (书 157页)
1、根据研究问题选取初始分析变量;
2、根据初始变量特性判断用协方差矩阵求主成分还是用相关
矩阵求主成分;(量纲不一致则将原始数据进行标准化处
理用相关矩阵求主成分)
3、求协方差矩阵或相关矩阵的特征根与相应的特征向量;
4、判断是否存在明显的多重共线性,若存在,返回至第 1步;
5、得到主成分表达式并确定主成分个数,依据方差贡献率选
取主成分;
6、对主成分作出合理解释,并结合其他研究法对研究问题进
行深入分析。
2011-10-16 72
cxt
? 三,SPSS操作,
1,analyze-description statistic-description-save
standardized as variables( 若需要数据标准化,
则进行该操作)
2,analyze-data reduction-factor
3,指定参与分析的变量
4、运行 factor 过程
2011-10-16 73
cxt
2011-10-16 74
cxt
2011-10-16 75
cxt
2011-10-16 76
cxt
2011-10-16 77
cxt
2011-10-16 78
cxt
2011-10-16 79
cxt
2011-10-16 80
cxt
2011-10-16 81
cxt
2011-10-16 82
cxt
2011-10-16 83
cxt
2011-10-16 84
cxt
2011-10-16 85
cxt
? 使用默认值进行最简单的主成分分析 (默认为主成分分
析法,Principal components)
例 1:对美国洛杉矶 12个人口调查区的 5个经济学变量的数
据进行因子分析( 12个地区调查表,sav)
菜单,Analyze- Data Reduction- Factor
? Variables, pop,School,employ,Services,
house
? 其他使用默认值(主成分分析法 Principal
components,选取特征值 >1,不旋转 )
2011-10-16 86
cxt
输出结果,
C o m m u n a l i t i e s
I ni t i a l E x t ra c t i o n
总人口
1, 0 0 0, 9 8 8
中等学校平均校龄
1, 0 0 0, 8 8 5
总雇员数
1, 0 0 0, 9 7 9
专业服务项目数
1, 0 0 0, 8 8 0
中等房价
1, 0 0 0, 9 3 8
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
T o t a l V a r i a n c e E x p l a i n e d
I ni t i a l E i g e nv a l ue s E x t ra c t i o n Sum s o f Sq ua re d L o a d i ng s
Co m p o ne nt T o t a l % o f Va ri a nc e Cu m ul a t i v e % T o t a l % o f Va ri a nc e Cu m ul a t i v e %
1 2, 8 7 3 5 7, 4 6 6 5 7, 4 6 6 2, 8 7 3 5 7, 4 6 6 5 7, 4 6 6
2 1, 7 9 7 3 5, 9 3 3 9 3, 3 9 9 1, 7 9 7 3 5, 9 3 3 9 3, 3 9 9
3, 2 1 5 4, 2 9 7 9 7, 6 9 6
4, 1 0 0 1, 9 9 9 9 9, 6 9 5
5, 0 1 5, 3 0 5 1 0 0, 0 0 0
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
2011-10-16 87
cxt
C o m p o n e n t M a t r i x ( a )
Co m p o ne nt
1 2
总人口, 5 8 1, 8 0 6
中等学校平均校龄, 7 6 7 -, 5 4 5
总雇员数, 6 7 2, 7 2 6
专业服务项目数, 9 3 2 -, 1 0 4
中等房价, 7 9 1 -, 5 5 8
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
a 2 c o m p o ne nt s e x t ra c t e d,
2011-10-16 88
cxt
? 比较有用的结果:两个主成分 (因子 )f1,f2及因子载荷矩阵
(Component Matrix),根据该表可以写出每个原始变量(标
准化值)的因子表达式,
Pop?0.581f1 + 0.806f2
School ? 0.767f1 - 0.545f2
employ ? 0.672f1 + 0.726f2
Services ? 0.932f1 - 0.104f2
house ? 0.791f1 - 0.558f2
? 每个原始变量都可以是 5个因子的线性组合,提取两个因子 f1
和 f2,可以概括原始变量所包含信息的 93.4%。 f1和 f2前的
系数表示该因子对变量的影响程度,也称为变量在因子上的载
荷。
? 但每个因子(主成分)的系数 (载荷 )没有很明显的差别,所以
不好命名。 因此为了对因子进行命名,可以进行旋转,使系数
向 0和 1两极分化,这就要使用选择项。
2011-10-16 89
cxt
? 由于系数没有很明显的差别,所以要进行旋转 (Rotation:
method一般用 Varimax方差最大旋转 ),使系数向 0和 1两极分
化。
? 菜单,Analyze- Data Reduction- Factor
? Variables, pop,School,employ,Services,
house
? Extraction,使用默认值( method,Principal
components,选取特征值 >1)
? Rotation,method选 Varimax
? Score:Save as variables 和 Display factor score
Coefficient matrix
2011-10-16 90
cxt
? 输出结果,(表 1- 3同前)
C o m m u n a l i t i e s
I ni t i a l E x t ra c t i o n
总人口
1, 0 0 0, 9 8 8
中等学校平均校龄
1, 0 0 0, 8 8 5
总雇员数
1, 0 0 0, 9 7 9
专业服务项目数
1, 0 0 0, 8 8 0
中等房价
1, 0 0 0, 9 3 8
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
T o t a l V a r i a n c e E x p l a i n e d
I ni t i a l E i g e nv a l ue s E x t ra c t i o n Sum s o f Sq ua re d L o a d i ng s
Co m p o ne nt T o t a l % o f Va ri a nc e Cu m ul a t i v e % T o t a l % o f Va ri a nc e Cu m ul a t i v e %
1 2, 8 7 3 5 7, 4 6 6 5 7, 4 6 6 2, 8 7 3 5 7, 4 6 6 5 7, 4 6 6
2 1, 7 9 7 3 5, 9 3 3 9 3, 3 9 9 1, 7 9 7 3 5, 9 3 3 9 3, 3 9 9
3, 2 1 5 4, 2 9 7 9 7, 6 9 6
4, 1 0 0 1, 9 9 9 9 9, 6 9 5
5, 0 1 5, 3 0 5 1 0 0, 0 0 0
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
2011-10-16 91
cxt
旋转后的因子载荷矩阵,
C o m p o n e n t M a t r i x ( a )
Co m p o ne nt
1 2
总人口, 5 8 1, 8 0 6
中等学校平均校龄, 7 6 7 -, 5 4 5
总雇员数, 6 7 2, 7 2 6
专业服务项目数, 9 3 2 -, 1 0 4
中等房价, 7 9 1 -, 5 5 8
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
a 2 c o m p o ne nt s e x t ra c t e d,
R o t a t e d C o m p o n e n t M a t r i x ( a )
Co m p o ne nt
1 2
总人口, 0 1 6, 9 9 4
中等学校平均校龄, 9 4 1 -, 0 0 9
总雇员数, 1 3 7, 9 8 0
专业服务项目数, 8 2 5, 4 4 7
中等房价, 9 6 8 -, 0 0 6
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s, R o t a t i o n M e t ho d, Va ri m a x w i t h K a i s e r N o rm a l i z a t i o n,
a R o t a t i o n c o nv e rge d i n 3 i t e ra t i o ns,
2011-10-16 92
cxt
因子旋转中的正交矩阵,
C o m p o n e n t T r a n s f o r m a t i o n M a t r i x
Co m p o ne nt 1 2
1, 8 2 1, 5 7 1
2 -, 5 7 1, 8 2 1
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
R o t a t i o n M e t ho d, Va ri m a x w i t h K a i s e r N o rm a l i z a t i o n,
因子得分系数矩阵,
C o m p o n e n t S c o r e C o e f f i c i e n t M a t r i x
Co m p o ne nt
1 2
总人口 -, 0 9 1, 4 8 4
中等学校平均校龄, 3 9 2 -, 0 9 6
总雇员数 -, 0 3 9, 4 6 5
专业服务项目数, 2 9 9, 1 3 8
中等房价, 4 0 3 -, 0 9 8
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
R o t a t i o n M e t ho d, Va ri m a x w i t h K a i s e r N o rm a l i z a t i o n,Co m p o n e nt Sc o re s,
C o m p o n e n t S c o r e C o v a r i a n c e M a t r i x
Co m p o ne nt 1 2
1 1, 0 0 0, 0 0 0
2, 0 0 0 1, 0 0 0
E x t ra c t i o n M e t ho d, P ri nc i p a l Co m p o ne nt Ana l y s i s,
R o t a t i o n M e t ho d, Va ri m a x w i t h K a i s e r N o rm a l i z a t i o n,Co m p o ne nt Sc o re s,
因子得分协方差矩阵,
2011-10-16 93
cxt
? 比较有用的结果:两个主成分 (因子 )f1,f2及旋转后的因子载荷矩
阵 (Rotated Component Matrix), 根据该表可以写出每个原始变
量(标准化值)的因子表达式,
Pop? 0.01602 f1 + 0.9946f2
School ? 0,941f1 - 0.00882f2
employ ? 0.137f1 + 0.98f2
Services ? 0.825f1 +0.447f2
house ? 0.968f1 - 0.00605f2
? F1= 0.01602 Pop+ 0,941 School+ 0.137 employ+ 0.825
Services+ 0.968 house
? F2= 0.9946 Pop-0.00882 School+ 0.98 employ+ 0.447
Services-0.00605 house
? 第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝
对值较大的载荷 (代表一般社会福利 -福利条件因子 ); 而第二
主因子对总人口和总雇员数有较大的载荷 (代表人口 -人口因
子 ),
2011-10-16 94
cxt
? 比较有用的结果,因子得分 fac1_1,fac2_1。 其计算
公式:因子得分系数和原始变量的标准化值的乘积
之和 。
fac1_1 = -0.091 Pop + 0.392 School-0.039
employ+0.299 Services+0.403 house
fac2_1 = 0.484 Pop –0.096 School+0.465
employ+0.138 Services-0.098 house
? 然后可以利用因子得分进行聚类, 回归分析等。
2011-10-16 95
cxt
? 例 2 某主管局管辖 20个工厂,现要对每个工厂作经
济效益分析,经研究确定从所取得的生产成果同所消
耗的人力,物力,财力的比率,选取五个指标作分析
x1-固定资产产值率,X2-净产值劳动生产率,X3-百元
产值流动资金占用率,X4-百元产值利润率,X5-百元
资金利润率,(数据见 ex301)
? Y1=0.5031*zx1+0.4994*zx2-0.4731*zx3+0.0690*zx4+0.5183*zx5
? Y2=-0.3451*zx1+0.2871*zx2+0.3833*zx3+0.7460*zx4+0.3093*zx5
? F=0.5365*y1+0.34302*y2
2011-10-16 96
cxt
? 从系数的大小、系数的符号上进行分析。
? 系数绝对值较大,则表明该主成分主要综合了绝对
值大的变量。
? 正号表示变量与主成分作用同方向,负号表示原变
量与主成分作用反方向。
2011-10-16 97
cxt
? 例 3 在企业经济效益的评价中,涉及的指标往往很
多,为了简化系统结构,抓住经济效益评价中的主要
问题,我们可由原始数据矩阵出发求主成分,在对我
国部分省,市,自治区独立核算的工业企业的经济效
益评价中,涉及到 9项指标,x1-100元固定资产原值
实现产值,X2-100元固定资产原值实现利税,X3-100
元资金实现利税,X4-100元工业总产值实现利
税,X5-100元销售收入实现利税,X6-每吨标准煤实
现工业产值,X7-每千瓦时电力实现工业产值,X8-全
员劳动生产率,X9-100元流动资金实现产值 (数据见
spssex/ex302)
2011-10-16 98
cxt
? Y1=0.928*zx1+0.977*zx2+0.935*zx3+0.232*zx4+0.460*zx5+0.
934*zx6+0.894*zx7+0.959*zx8+0.904*zx9
? Y2=-0.329*zx1+0.150*zx2+0.310*zx3+0.873*zx4+0.568*zx5-
0.210*zx6-0.288*zx7-0.01679*zx8-0.174*zx9
2011-10-16 99
cxt
? 例 4,职工健康 (数据见 spssex/职工健康情况分析 )
? Y1=0.3369*zx1+0.371*zx2+0.4029*zx3-
0.0013*zx4+0.3771*zx5+0.3876*zx6+0.2202*zx7+0.3933*zx8+
0.3015*zx9
? Y2=0.2983*zx1-0.0596*zx2-0.2184*zx3+0.5998*zx4-
0.0141*zx5-0.2603*zx6+0.55*zx7+0.2113*zx8-0.2904*zx9
? Y3=-0.354*zx1+0.4649*zx2-
0.0129*zx3+0.5038*zx4+0.4085*zx5+0.0419*zx6-0.3774*zx7-
0.1303*zx8-0.2762*zx9
2011-10-16 100
cxt
? 例 5,数据来自 SAS公司,1980年一个汽车制造商在竞争对手中选择了
17种车型,访问了 25个顾客,要求他们根据自己的偏好对 17种车型打
分。打分范围 0~ 9.9,9.9表示最高程度的偏好。 ( 17× 25,17个
case,25个变量 V1-V25)
? 菜单,Analyze- Data Reduction- Factor
? Variables, V1-V25
? Extraction,method,Principal components
Extract:Number of factors:3 要三个主成分
? Score:Save as variables
? 比较有用的结果,3个主成分及其因子载荷矩阵 (Component Matrix),第
一主成分和第二主成分的载荷图( Loading plots)
? 比较有用的结果,因子得分 fac1_1,fac2_1,fac3_1。 然后可以利用因子
得分进行各种分析:做偏好图,用 fac1_1,fac2_1做散点图( Graphs-
>Scatter,X- fac1_1,Y- fac2_1),第一主成分反映了车的产地,第二
主成分反映了车的特性(质量、动力、座位数等)