因子分析
公共卫生学院
一、前言
? 变量的相关性
公共因子?
? 将多个实测变量转换成少数几
个不相关的综合指数
二、因子分析模型
一般地,设 X=(x1,x2,…,x p)’为可观测
的随机变量,且有
? f=(f1,f2,…,f m)’为公共(共性)因子
(common factor),简称因子 (factor)
imimiiii efafafaX ???????????? 2211?
? e=(e1,e2,…,e p)’为特殊因子 ( specific
factor)
f和 e均为不可直接观测的随机变量
? μ=(μ1,μ2,…,μp)’为随机变量 x的总体
均值
? A=(aij)p*m为因子负荷(载荷 )
( factor loading) 矩阵
通常先对 x作标准化处理,使标准化得到的新
变量均值为零,方差为1.这样就有
假定(1) fi的均数为0,方差为1;
(2) ei的均数为0,方差为 δ i;
(3) fi与 ei相互独立,
则称 x为具有 m个公共因子的因子模型
imimiii efafafax ??????????? 2211
如果再满足(4) fi与 fj相互独立
( i≠j),则称该因子模型为正交因子
模型。
正交因子模型具有如下特性,
? x的方差可表示为

iimiii aaaxV a r ??????????
22
2
2
11)(
22
2
2
1
2
imiii aaah ???????
(1) hi2是 m个公共因子对第 i个变
量的贡献,称为第 i个共同度
( communality) 或共性方差,公因
子方差 ( common variance)
(2) δ i称为特殊方差 ( specific
variance),是不能由公共因子解释
的部分
? 因子载荷(负荷) aij是随机变量 xi与
公共因子 fj的相关系数。
? 设
称 gj2为公共因子 fj对 x的, 贡献,,是
衡量公共因子 fj重要性的一个指标。
22
1
1,2,...,
p
j ij
i
ga
jm
?
?
?
?
三、因子分析的步骤
? 输入原始数据 xn*p,计算样本均值和方
差,进行标准化计算(处理);
? 求样本相关系数矩阵 R=(rij)p*p;
? 求相关系数矩阵的特征根 λi
(λ1,λ2,…,λp>0)和相应的标准正交的特征
向量 li;
? 确定公共因子数;
? 计算公共因子的共性方差 hi2;
? 对载荷矩阵进行旋转,以求能更好地
解释公共因子;
? 对公共因子作出专业性的解释。
四、因子分析提取因子的方法
? 主成分法 ( principal component
factor)
1,2,..,,; 1,2,..,,
ij j ji
al
i p j m
??
??
每一个公共因子的载荷系数之平方和
等于对应的特征根,即该公共因子的
方差。
22
1
p
j i j j
i
ag?
?
???
? 极大似然法 ( maximum likelihood factor)
假定原变量服从正态分布,公共因
子和特殊因子也服从正态分布,构
造因子负荷和特殊方差的似然函数,
求其极大,得到唯一解。
? 主因子法 ( principal factor)
设原变量的相关矩阵为 R=(rij),其
逆矩阵为 R-1=(rij)。 各变量特征方差
的初始值取为逆相关矩阵对角线元
素的倒数,δi’=1/rii。 则共同度的初
始值为 (hi’)2=1- δi’=1-1/rii。
以 (hi’)2代替相关矩阵中的对角线上的元素,
得到约化相关矩阵。
(h1’)2 r12 … r 1p
r21 (h2’)2 … r 2p
R’=,, …,
,, …,
rp1 rp2 … (h p’)2
R’的前 m个特征根及其对应的单位化特征
向量就是主因子解。
? 迭代主因子法 ( iterated principal factor)
主因子的解很不稳定。因此,常以估
计的共同度为初始值,构造新的约化
矩阵,再计算其特征根及其特征向量,
并由此再估计因子负荷及其各变量的
共同度和特殊方差,再由此新估计的
共同度为初始值继续迭代,直到解稳
定为止。
? Heywood现象
?残差矩阵
五、因子旋转
? 目的:使因子负荷两极分化,要么
接近于 0,要么接近于 1。
? 常用的旋转方法,
( 1)方差最大正交旋转
( varimax orthogonal rotation)
? 基本思想:使公共因子的相对负荷
( lij/hi2)的方差之和最大,且保持原公
共因子的正交性和公共方差总和不变。
? 可使每个因子上的具有最大载荷的变量
数最小,因此可以简化对因子的解释。
( 2)斜交旋转 ( oblique rotation)
? 因子斜交旋转后,各因子负荷发生了较
大变化,出现了两极分化。各因子间不
再相互独立,而彼此相关。各因子对各
变量的贡献的总和也发生了改变。
? 适用于大数据集的因子分析。
六、因子得分
? Thomson法,即回归法
回归法得分是由 Bayes思想导出的,得
到的因子得分是有偏的,但计算结果
误差较小。
? Bartlett法
Bartlett因子得分是极大似然估计,也
是加权最小二乘回归,得到的因子得
分是无偏的,但计算结果误差较大。
? 因子得分可用于模型诊断,也可用作
进一步分析的原始资料。
七、因子分析应用实例
八、因子分析应用的注意事项
? 应用条件
( 1)变量是计量的,能用线性相关
系数( Pearson积叉相关系数)表示
它们之间的相关性。
( 2)总体的同质性
? 样本量
没有估计公式。至少要保证样本相
关系数稳定可靠。
? 因子数目
一般认为,累积贡献要达到 80%以
上。但要注意 Heywood现象。
谢谢!