上一页 下一页湘潭大学数学与计算科学学院 1
§ 8.3 主成分分析
多元分析讨论多变量(多指标)问题,由于变量
较多,增加了问题的复杂性。但在许多实际问题
中我们经常发现变量之间有一定的相关性,人们
自然希望用较少的变量来代替原来较多的变量,
且使这些较少的变量尽可能地反映原来变量的信
息。将这种思想引入统计学,就产生了主成分分
析,典型相关分析等。下面 只介绍主成分分析 。
上一页 下一页湘潭大学数学与计算科学学院 2
一、协方差阵 Σ已知时的情形 设 ),,,(
21 pXXXX ?? 是一个
p 维随机向量,其二
阶矩存在,记 )(),( XDXE ????, ? 已知。
考虑它的线性变换
?
?
?
?
?
????
????
,
,
11
111111
pppp
T
pp
pp
T
XlXlXLY
XlXlXLY
?
?
?
( 8.23)
pkkllL pkkkk,,2,1),,,,( 21 ?? ??
其中
上一页 下一页湘潭大学数学与计算科学学院 3
易见
iTii LLYD ??)( jTiji LLYY ??),c ov ( pji,,2,1,??
假如希望用
1
Y 来代替原来的 p 个变量
p
XX,,
1
?,这就
要求
1
Y 尽可能多地反映原来的 p 个变量的信息,这里
的“信息”用什么来表达?
最经典的方法是用 1Y 的方差来表达。
)( 1YD 越大,表示 1Y 包的信息越多。 由( 8, 2 4 )看出,对
1L 必须有某种限制,否则
可使 ??)( 1YD 。
上一页 下一页湘潭大学数学与计算科学学院 4
常用的限制是
,1?iTi LL pi,,2,1 ?? ( 8.25)故我们希望在约束式( 8, 2 5 )下找
1L,使得 )( 1YD 达到
最大,这样的 1Y 称为 第一主成分 。
如果第一个主成分不足以代表原来的 p 个变量,就考虑
采用
2
Y,为了最有效地代表原变量的信息,
2
Y 中不应含

1
Y 已有的信息,
用数学公式来表达就应有
0),c o v ( 21 ?YY于是,求 2Y 就转化为在约束式( 8,25 )和式( 8,26 )下
求 2L,使 )( 2YD 达到最大,所求的 2Y 称为 第二主成分 。
上一页 下一页湘潭大学数学与计算科学学院 5
类似地,我们可能定义第三主成分、第四主成分,… 。
一般地讲 X 的第 i 个主成分 XLY Tii ? 是指:在约束式( 8,25 )
及 )(0),c ov( ikXLXL TkiTi ?? 下求 iL,使得 )( iYD 达到最大。
令 p???,,,21 ? 为 ? 的特征根 )0( 21 ??? p??? ?,
pttt,,,21 ? 为相应的单位特征向量。 若特征根有重根,对应于这个重根的特征向量组成一 个
pR 的子空间,子空间的维数等于重根的次数。
在子空间中任取一组正交的坐标系,这个坐标系的单位向
量就可用来作为它的特征向量。
显然这时特征向量的取法不惟一,有无穷多种取法,在
下面的讨论中我们总假定已选定某一种取法。
上一页 下一页湘潭大学数学与计算科学学院 6
定理 8.6 设 X 为 p 维随机向量,且 )( XD?? 存
在,则 X 的第 i 个主成分
i
Y 与方差 )(
i
YD 分别为
XtY
T
ii
?,
ii
YD ??)(, pi,,2,1 ??,
其中
i
? 为 ? 的特征值,
i
t 为对应
i
? 的单位特征向量。
定理的证明要用到较深的线性代数知识,故此省略。
若记
?
?
?
?
?
?
?
?
?
?
?
p
A
?
?
?
0
0
2
1
),,,( 21 pT tttT ??
( 8.27)
),,( 21 pT YYYY ??
上一页 下一页湘潭大学数学与计算科学学院 7
则由定理可得如下等价说法。
系 设 Y 为 p 维随机向量,Y 的分量
p
YY,,
1
? 依次是
X 的第一主成分?,第 p 主成分的充要条件是,
( 1 ) XTY
T
?, T 为正交阵;
( 2 ) )( YD 为对角阵 ),,,(d i a g 21 p??? ? ;
( 3 ) p??? ??? ?21 。
若设正交阵 )(
ij
tT ?, pji,,2,1,??,则可得以下结论,
( 1 ) AYD ?)( 其中 A 由( 8,27 )式给出,
( 2 ) ??
??
?
p
i
ii
p
i
i
11
?? 其中
ii
? 为矩阵 ? 主对角线上的第 i
个元素;
上一页 下一页湘潭大学数学与计算科学学院 8
( 3 )主成分
k
Y 与原来变量
i
X 的相关系数 ),(
ik
XY?
称做 因子负荷量
piktXY
iiikkik
,,2,1,,/),( ??? ??? ; ( 8.29 )
( 4 ) kik
p
i
ii XY ??? ??
?
),(
1
2 ; ( 8, 3 0 )
( 5 ) ??
??
??
p
k
iiikkik
p
k
tXY
1
2
1
2 1),( ??? 。 ( 8,31 )
定义 8,2 在主成分分析中,称 ?
?
p
i
ik
1
/ ?? 为主成分
k
Y 的贡
献率,称 ??
??
p
i
i
m
i
i
11
/ ?? 为主成分
m
YY,,
1
? 的累计贡献率。
上一页 下一页湘潭大学数学与计算科学学院 9
通常取 m,使得累计贡献率超过 8 5 % (有时只需超过
80 % )。 累 计 贡 献 率 是 表 达 m 个主成分提取
p
XXX,,,
21
? 的多少信息的一个量,但它并没有表达某
个变量被提取了多少信息,为此还需要另一个概念。
定义 8.3 m 个主成分
m
YY,,
1
? 对于原变量
i
X 的
贡献率
i
v 是
i
X 分别与
m
YY,,
1
? 相关系数的平方和,即
?
?
?
m
k
iiikki
tv
1
2
/ ?? 。 ( 8.32 )
下面给出一个例子,说明的用途。
iv
上一页 下一页湘潭大学数学与计算科学学院 10
例 8.7 设 ),,(
321
XXXX ? 的协差阵为
?
?
?
?
?
?
?
?
?
?
?
?
??
200
052
021
,
已求得
?
?
?
?
?
?
?
?
,17.0
,00.2
,83.5
3
2
1
?
?
?
,
0 0 0.0
9 2 4.0
3 8 3.0
1
?
?
?
?
?
?
?
?
?
?
??t,
1
0
0
2
?
?
?
?
?
?
?
?
?
?
?t
?
?
?
?
?
?
?
?
?
?
?
0 0 0.0
3 8 3.0
9 2 4.0
3t
如果只取第一个主成分,贡献率可达
7 2, 8 7 5 %75 7 2 8.0)17.000.283.5/(83.5 ????
似乎很理想,
上一页 下一页湘潭大学数学与计算科学学院 11
若进一步计算每个变量的贡献率,可得下表数据(见表 8.6)
表 8.6
i ),(
1 i
XY?
i
? ),(
2 i
XY?
i
?
1 0.925 0.855 0.000 0.855
2 - 0.998 0.996 0.000 0.996
3 0.000 0.000 1.000 1.000
从表中看到,
1
Y 对第三个变量的贡献率为零,这是因为
3
X

1
X 和
2
X 都不相关,
1
Y 中未包含
3
X 的信息,这时仅取第
一个主成分就不够了,
上一页 下一页湘潭大学数学与计算科学学院 12
故需再取 2Y,此时累计贡献率为
%875.978/)00.283.5( ??,
),( 21 YY 对每个变量 iX 的贡献率列于上面的表中,分别为
%5.851 ??, %6.992 ??, %1 0 03 ??,都比较高。
在实际问题中,不同的变量往往有不同的量纲,而通过 ?
来求主成分,优先照顾方差 )(
ii
? 大的变量,有时会产生很
不合理的结果。
为了消除由于量纲的不同可能带来的一些不合理的影响,
常将 变量标准化,
上一页 下一页湘潭大学数学与计算科学学院 13
即取
,p,,iXD XEXX
i
ii
i ?21,)(
)(* ??? ( 8.33)
显见 ),( **1* pXXX ?? 的协差阵就是 X 的相关阵 R 。
从相关阵出发来求主成分,可平行于上面的讨论得
到如下的性质:( 1 )主成分的协差阵为 ),,(d i a g **
1
*
PA ?? ??,其中
**
2
*
1 p??? ??? ? 为 R 的特征根;
( 2 ) p
p
i
i ??
? 1
*? ;
上一页 下一页湘潭大学数学与计算科学学院 14
( 3 )
*
i
X 与主成分
*
k
Y 的相关系数(因子负荷量)为
pkitXY
ikkik
,,,2,1,,),(
****
??? ??,
其中 ),,(
**
1
*
pkkk
ttt ?? 为 R 的相对于 *
k
? 的单位特征向量;
( 4 )
*
1
****
1
2
2
),(
k
p
i
ikkkk
p
i
tXY ??? ?? ??
??
(因 pi
ii
,,1,1
*
???? );
( 5 ) 1),(
1
****
1
2 2 ?? ??
??
p
k
ikkik
p
k
tXY ??
主成分还可用其他形式来定义,这里不再赘述。
上一页 下一页湘潭大学数学与计算科学学院 15
综上所述,从 p 个指标中求主成分的方法就是从样品 X 的
协差阵 ? 出发,先求出 ? 出求,先求出 ? 的特征根,并依
大小次序排列成 0
21
????
m
??? ?,(当 ? 为非负定阵
时,其余 mp ? 个特征根为 0 ),
再求出相应于 m???,,,21 ? 的单位化了的特征根 mttt,,,21 ?, 于是可求得第一,第二,?,第
m 个主成分依次为
XtYXtYXtY TmmTT ???,,,2211 ? 。
由线性代数知识知道,对称阵中的不同特征根所对应 的
特征向量是正交的,故
m
ttt,,,
21
? 相互正交,从而变换后
所得各主成分
m
YYY,,,
21
? 相互无关。
上一页 下一页湘潭大学数学与计算科学学院 16
因 此,所谓主成分分析,也可以看成是对原来的
p 个指标
p
XXX,,,
21
? 进行了一次正交变换,变
成了
m
YYY,,,
21
?,而
m
YY,,
1
? 是相互无关的。
上一页 下一页湘潭大学数学与计算科学学院 17
二、协方差阵 Σ 未知时的情形
在上面的讨论中,总假定 X 的协方差阵 ? 是已知的,
但在实际问题中 ? 常常是未知的,这就需要用样本
),,,(
21 n
XXX ? 对 ? 作估计,
记样本阵为
?
?
?
?
?
?
?
?
?
?
?
?
?
npnn
p
p
xxx
xxx
xxx
X
?
???
?
?
21
22221
11211
上一页 下一页湘潭大学数学与计算科学学院 18
则样本离差阵, 样本协方差阵及样本相关阵分别为
?
?
???????
n
j
ijijjj SAnSXXXXA
1
)(11),())(( ?
jjii
ij
jjii
ij
ijij SS
SrrR ???
??
? ),(其中 ?
?
?
n
i
i
X
n
X
1
1
。取 ? 的估计为 S???,取总体相关阵
的估计为 R,
按上节的方法求出 ? 的特征根以及相应的特征向量(单位
化的),就可获得主成分,也可从样本相关阵 R 出发,求
出 R 的特征根及所对应的特征向量,再求出类似的成分。
上一页 下一页湘潭大学数学与计算科学学院 19
例 8.8 彩色胶卷的显影色彩非常容易受显影液微小变化的
影响,为了对显影液进行质量控制,将胶卷在不同情形
下曝光,然后通过红、绿、蓝滤色片进行测量,测量在
高、中、低三种密度下进行,故每一个胶卷共有 9个指标,
共做了 108个试验,由数据算得协差阵列于表 8.7。它的特
征根及相应的累计贡献率见表 8.8。由表中看到前两个主
成分提取的信息已接近 75%,前三个主成分的信息可达
83.44%,故我们可取前 3个主成分。
上一页 下一页湘潭大学数学与计算科学学院 20
表 8.7 协方差阵
高 中 低
红 绿 蓝 红 绿 蓝 红 绿 蓝
177 179 95 96 53 32 - 7 - 4 - 3
419 245 131 181 127 - 2 1 4
302 60 109 142 4 4 11
158 102 42 4 3 2
137 96 4 5 6
128 2 2 8
34 31 33
39 39
48
上一页 下一页湘潭大学数学与计算科学学院 21
表 8,8 特征根
i 1 2 3 4 5 6 7 8 9
i
?
878.52 196.10 128.64 103.43 81.26 37.85 6.98 5.71 3.52
累计贡
献率( % )
60.92 74.52 83.44 90.62 96.25 98.88 99.36 99.76 100.00
上一页 下一页湘潭大学数学与计算科学学院 22
表 8.9 特征 向量
高 中 低
红 绿 蓝 红 绿 蓝 红 绿 蓝
1
t 0.305 0.654 0.482 0.261 0.323 0.271 0.002 0.006 0.014
2
t - 0.485 - 0.150 0.587 - 0.491 - 0.038 0.376 0.057 0.053 0.088
3
t
- 0.412 - 0.182 - 0.235 0.457 0.495 0.268 0.256 0.266 0.282
前三个主成分的系数列于表 8.9,我们看到,第一个主成分的
信息主要来源于前 6个变量,低密度时的前三个变量反映甚少。
第二个主成分的信息主要反映了高红、高蓝、中红和中蓝
四个变量,注意到红和蓝的系数符号相反,故第二主成分
反映了红和蓝的对比。
第三个主成分反映了高密度和中、低密度的对比。
上一页 下一页湘潭大学数学与计算科学学院 23
表 8,10 因子负荷量
1
t
2
t 3
t
i
?
红 0,67 9 0,51 1 - 0,35 1 0,84 5
绿 0,94 6 - 0,10 3 - 0,10 1 0,91 6 高
蓝 0,82 4 0,47 3 - 0,15 4 0,92 8
红 0,61 6 - 0,54 7 0,41 2 0,84 9
绿 0,81 9 - 0,04 5 0,48 0 0,90 3 中
蓝 0,71 0 0,46 2 0,26 9 0,79 1
红 0,01 2 0,13 7 0,49 7 0,26 6
绿 0,02 8 0,12 0 0,48 3 0,24 9 低
蓝 0,06 2 0,17 9 0,46 2 0,24 9
表 8.10计算了前三个主成分对每个变量的因子负荷量,最
后一列是三个主成分对每个变量的累计贡献,例如
i?
上一页 下一页湘潭大学数学与计算科学学院 24
8 4 5.0)3 5 1.0()5 1 1.0(6 7 9.0 2221 ???????
从表中看到前六个变量的累计贡献率几乎都在 80%
以上,后三个变量的累计贡献率仅在 25%左右,
这是由于三个变量分差太小 。
如果再增加成分,可使后三个变量的累计贡献率提
高,但给分析问题带来了一定的麻烦。
如果改用相关阵计算,有兴趣的读者可以去试一试。