第十一章 因子分析 11.1 主要功能 11.2 实例操作 ? 11.1 主要功能 多元分析处理的是多指标的问题。由于指标太多,使得分析的复杂性增加。观察指标的增加本来是为了使研究过程趋于完整,但反过来说,为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。由于在实际工作中,指标间经常具备一定的相关性,故人们希望用较少的指标代替原来较多的指标,但依然能反映原有的全部信息,于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。 调用Data Reduction菜单的Factor过程命令项,可对多指标或多因素资料进行因子分析。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与上一章的聚类分析不同),以较少的几个因子反映原资料的大部分信息。 ?  ? 11.2 实例操作 [例11-1]下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1至X7,请对该资料进行因子分析。 ? X1 X2 X3 X4 X5 X6 X7  3.76 8.59 6.22 7.57 9.03 5.51 3.27 8.74 9.64 9.73 8.59 7.12 4.69 5.51 1.66 5.90 9.84 8.39 4.94 7.23 9.46 9.55 4.94 8.21 9.41 3.66 4.99 6.14 7.28 7.08 3.98 0.62 7.00 9.49 1.33 2.98 5.49 3.01 1.34 1.61 5.76 9.27 4.92 4.38 2.30 7.31 5.35 4.52 3.08 6.44 0.54 1.34 4.52 7.07 2.59 1.30 0.44 3.31 1.03 1.00 1.17 3.68 2.17 1.27 1.57 1.55 1.51 2.54 1.03 1.77 1.04 4.25 4.50 2.42 5.11 5.28 10.02 9.84 12.66 11.76 6.92 3.36 11.68 13.57 9.87 9.17 9.72 5.98 5.81 2.80 8.84 13.60 10.05 6.68 7.79 12.00 11.74 8.07 9.10 12.50 9.77 7.50 2.17 1.79 4.54 5.33 7.63 3.53 13.13 9.87 7.85 2.64 2.76 4.57 1.78 5.40 9.02 3.96 6.49 4.39 11.58 2.77 1.79 3.75 2.45 13.74 10.16 2.73 2.10 6.22 7.30 4.76 18.52 11.06 9.91 3.43 3.55 5.38 2.09 7.50 12.67 5.24 9.06 5.37 16.18 3.51 2.10 4.66 3.10 4.78 2.13 1.09 0.82 1.28 2.40 8.39 1.12 2.35 3.70 2.62 1.19 2.01 3.43 3.72 1.97 1.75 1.43 2.81 2.27 2.42 1.05 1.29 1.72 0.91  ? 11.2.1 数据准备 激活数据管理窗口,定义变量名:分别为X1、X2、X3、X4、X5、X6、X7,按顺序输入相应数值,建立数据库,结果见图11.1。 ? ?  图11.1 原始数据的输入  ? 11.2.2 统计分析 激活Statistics菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框(图11.2)。在对话框左侧的变量列表中选变量X1至X7,点击(钮使之进入Variables框。 ? ?  图11.2 因子分析对话框  ? 点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框(图11.3),在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验。点击Continue钮返回Factor Analysis对话框。 ? ?  图11.3 描述性指标选择对话框  ? 点击Extraction...钮,弹出Factor Analysis:Extraction对话框(图11.4),系统提供如下因子提取方法: ? ?  图11.4 因子提取方法选择对话框8ea5 >  ? Principal components:主成分分析法; Unweighted least squares:未加权最小平方法; Generalized least squares:综合最小平方法; Maximum likelihood:极大似然估计法; Principal axis factoring:主轴因子法; Alpha factoring:α因子法; Image factoring:多元回归法。 本例选用Principal components方法,之后点击Continue钮返回Factor Analysis对话框。 点击Rotation...钮,弹出Factor Analysis:Rotation对话框(图11.5),系统有5种因子旋转方法可选: ? ?  图11.5 因子旋转方法选择对话框  ? None:不作因子旋转; Varimax:正交旋转; Equamax:全体旋转,对变量和因子均作旋转; Quartimax:四分旋转,对变量作旋转; Direct Oblimin:斜交旋转。 旋转的目的是为了获得简单结构,以帮助我们解释因子。本例选正交旋转法,之后点击Continue钮返回Factor Analysis对话框。 点击Scores...钮,弹出弹出Factor Analysis:Scores对话框(图11.6),系统提供3种估计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue钮返回Factor Analysis对话框,再点击OK钮即完成分析。 ? ?  图11.6 估计因子分方法对话框  ? 11.2.3 结果解释 在输出结果窗口中将看到如下统计数据: 系统首先输出各变量的均数(Mean)与标准差(Std Dev),并显示共有25例观察单位进入分析;接着输出相关系数矩阵(Correlation Matrix),经Bartlett检验表明:Bartlett值 = 326.28484,P<0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析。 Kaiser-Meyer-Olkin Measure of Sampling Adequacy是用于比较观测相关系数值与偏相关系数值的一个指标,其值愈逼近1,表明对这些变量进行因子分析的效果愈好。今 KMO值 = 0.32122,偏小,意味着因子分析的结果可能不能接受。 ? Analysis number 1 Listwise deletion of cases with missing values ? Mean Std Dev Label X1 7.10000 2.32380 X2 4.77320 2.41779 X3 2.34880 1.66556 X4 9.15240 3.01405 X5 5.45840 3.27344 X6 7.16720 4.55817 X7 2.34600 1.61091 ? Number of Cases = 25 ? Correlation Matrix: X1 X2 X3 X4 X5 X6 X7 X1 1.00000 X2 .58026 1.00000 X3 .20113 .36379 1.00000 X4 .90900 .83725 .43611 1.00000 X5 .28347 .16590 -.70423 .16328 1.00000 X6 .28656 .26119 -.68058 .20309 .99020 1.00000 X7 -.60846 -.64918 -.67758 .42733 .35732 1.00000 ? Kaiser-Meyer-Olkin Measure of Sampling Adequacy = .32122 Bartlett Test of Sphericity = 326.28484, Significance = .00000 ?  ? 使用主成分分析法得到2个因子,因子矩阵(Factor Matrix)如下,变量与某一因子的联系系数绝对值越大,则该因子与变量关系越近。如本例变量X7与第一因子的值为-0.88644,与第二因子的值为0.21921,可见其与第一因子更近,与第二因子更远。或者因子矩阵也可以作为因子贡献大小的度量,其绝对值越大,贡献也越大。 在Final Statistics一栏中显示各因子解释掉方差的比例,也称变量的共同度(Communality)。共同度从0到1,0为因子不解释任何方差,1为所有方差均被因子解释掉。一个因子越大地解释掉变量的方差,说明因子包含原有变量信息的量越多。 ? Extraction 1 for analysis 1, Principal Components Analysis (PC) PC extracted 2 factors. Factor Matrix: Factor 1 Factor 2 X1 .74646 .48929 X2 .79644 .37219 X3 .70890 -.59727 X4 .91054 .38865 X5 -.23424 .96350 X6 -.17715 .97172 X7 -.88644 .21921 ? Final Statistics: Variable Communality * Factor Eigenvalue Pct of Var Cum Pct * X1 .79660 * 1 3.39518 48.5 48.5 X2 .77284 * 2 2.80632 40.1 88.6 X3 .85927 * X4 .98014 * X5 .98320 * X6 .97561 * X7 .83384 * ?  ? 下面显示经正交旋转后的因子负荷矩阵(Rotated Factor Matrix)和因子转换矩阵(Factor Transformation Matrix)。旋转的目的是使复杂的矩阵变得简洁,即第一因子替代了X1、X2、X4、X7的作用,第二因子替代了X3、X5、X6的作用。 ? VARIMAX rotation 1 for extraction 1 in analysis 1 - Kaiser Normalization. ? VARIMAX converged in 3 iterations. ? Rotated Factor Matrix: Factor 1 Factor 2 X1 .87795 .16064 X2 .87848 .03332 X3 .42098 -.82586 X4 .99001 .00414 X5 .15872 .97878 X6 .21452 .96415 X7 -.73151 .54656 ? Factor Transformation Matrix: Factor 1 Factor 2 Factor 1 .92135 -.38873 Factor 2 .38873 .92135 ?  ? 最后将第一因子的因子分用变量名fac_1、第二因子的因子分用变量名fac_2存入原始数据库中。这些值既可用于模型诊断,又可用于进一步分析。 ? ?  图11.7 因子分的获得并存盘