1
判别分析
Discriminate analysis
对所研究的对象进行分类的方法
已知分类的训练样品
判别函数
决定新样品的归属
2
逐步判别分析:
在判别函数中, 判别作用大的指标尽可
能不要遗漏, 作用小的指标则要尽量排除 。
逐步判别分析可对指标进行筛选, 挑出
必要的, 较好的指标组合, 建立判别函数,
从而提高判别效果 。
3
胆囊切除手术
方式研究
4
患者一般情况
统一编号 T _N UM 编号 NUM 分组 G ROU P 容易 =1,困难 =2,开腹 =3
姓名 XM 性别 XB 男 =1,女 =0
年龄
( 岁 )
NL
体重
( kg )
T Z H
住 院 号
Z YH
缺省
=9999 99
术后天数 S HT S 诊断 ZD 并存病 B CB
病理诊断 B L Z D 病程 (月) B CH 绞痛次数 JTCS
白细胞数 B XBS 中性 N (%) Z HX 确诊急胆次数 JD CS
治 疗 方 式
F S H
住院 =1,急诊 =2,门诊 =3,其它 =0
既 往 手 术
JWSS
有 =1,无 =0
手术次数 S S CS 手术名称 S S M C 手术间隔时间 (年) JG S J
5
囊壁模糊
NM H
是 =1,否 =0
囊壁毛糙
NM C
是 =1,否 =0 囊壁增厚 NZ H 是 =1,否 =0
囊壁厚 ( mm ) NBH 胆囊大小 胆囊长度 NBCD 胆囊径 NBJ
结石数 J S S H
数颗 =7,十余颗 = 15,数十颗 = 26,充满 = 50 (结石大小以 4 × 2 m m
表示)
结石大小
( mm )
绿豆 4 × 2,赤豆 6 × 3,黄豆 10 × 4,米粒 3 × 2,细小 2 × 1
结石长 JSCH 结石宽 JSK 囊颈结石 N JJS 有 =1,无 =0
三角清晰
S JQX
是 =1,否 =0
三角模糊
S JM H
是 =1,否 =0
三角粘连
S JN L
是 =1,否 =0
CBD ( mm ) CBD (胆总管管径) CB D 结石 C B D_ JS 有 =1,无 =0
囊萎缩 DN WS 是 =1,否 =0 邻近粘连 L JN L 是 =1,否 =0
B超结果
6
胆囊造影 D N Z Y
显影 =1
不显 =0
收缩功能 S SG N
良好 =3,尚好 =2,
差 =1,无 =0
结石造影 J SZ Y
显影 =1
不显 =0
结石数目 N _ J S
胆总管造影
ZG Z Y
显影 =1
不显 =0
口胆造影
G OT 0 ~ 55 GP T 0 ~ 54 A KP 42 ~ 121
? - G P
R _ GP
3 ~ 50 A 35 ~ 55 G 20 ~ 32
尿酸
N SU A N
155 ~ 428
尿素氮
N SD
2,9 ~ 7,5 肌酐 J G A N 44 ~ 133
肝功、肾功( 附正常范围 )
7
1,训练样本:
腹腔镜手术容易组 153例, 困难组 63例,
开腹手术组 58例 。 合计 274例 。
检测样本 16例 。
2,描述性统计分析
对所有的指标进行描述性统计分析 。 定量
指标 24项, 定性指标 11项 。
资料收集、整理、初步分析
8
3,筛选原则
类间距离越大, 分类效果越好;利用方差
分析检验 方程是否有意义 。
4,筛选结果
利用逐步判别分析, 筛选出有判别能力的
指标 15项 。
指标筛选
9
线性判别函数
判别方程的系数
编号 变量
容易 困难 开腹
1 常数项 -3 3,68 3 17 -3 6,37 5 80 -4 2,96 5 05
2 三角粘连 -0,2 44 6 8 0,06 74 7 7,25 00 8
3 三角模糊 -2,8 08 4 9 -1,6 99 7 7 0,39 48 9
4 囊壁增厚 0,19 65 2 2,40 33 6 2,45 90 4
∶ ∶ ∶ ∶ ∶
14 囊壁模糊 -0,9 81 0 2 0,07 20 3 -0,4 74 2 8
15 绞痛次数 0,12 58 9 0,18 34 7 0,26 90 1
16 病程 -0,0 00 0 82 4 0,00 02 9 90 -0,0 09 1 8
10
列出判别方程
Y ( 容易 ) = - 3 3, 6 8 3 2 -0, 2 4 4 6 8 S JN L - 2, 8 0 84 9 S J M H + 0, 1 9 6 5 2 N Z H
+ ? + 0, 12 5 8 9 J T C S - 0, 0 0 0 0 8 24 B C H
Y( 困难 ) = - 3 6, 3 7 5 8 + 0, 0 6 7 4 7 S J N L - 1, 6 9 97 7 S J M H + 2, 4 0 3 3 6 N Z H
+ ? + 0, 18 3 4 7 J T C S + 0, 0 0 0 2 9 9 B C H
Y( 开腹 ) = - 4 2, 9 6 5 1 + 7, 2 5 0 0 8 S J N L + 0, 3 9 48 9 S J M H + 2, 4 5 9 0 4 N Z H
+ ? + 0, 26 9 0 1 J T C S - 0, 0 0 9 1 8 B C H
11
分类结果
原分类
容易 困难 开腹
合计
容易 13 8 13 2 15 3
困难 22 35 6 63
开腹 6 8 44 58
合计 16 6 56 52 27 4
先验概率 0,55 84 0,22 99 0,21 17 1,00
回代判别效果
回代总的判别成功率为 79.20%,错误率
为 20.80%; 困难组与容易组混杂严重,判别正
确率较低。
12
新病例判别
概率
编号 所在组 分入组
容易 困难 开腹
1 1 1 0,91 30 0,08 43 0,00 26
2 1 1 0,93 48 0,06 45 0,00 07
3 1 1 0,54 17 0,18 28 0,27 55
4 1 2* 0,08 07 0,91 62 0,00 31
∶ ∶ ∶ ∶ ∶ ∶
15 2 1* 0,90 81 0,08 98 0,00 21
16 3 3 0,00 00 0,00 00 1,00 00
结论:在 16例患者中,有 3例错判,判别分
类与实际情况的吻合率为 81.25%。
13
聚类分析
cluster analysis
可和判别分析结合应用
聚类统计量:相似系数、距离
研究“物以类聚”的一种数理统计方法。
将观察对象依据某些特征加以归类
14
1 2 …… 208
身高( x1) cm 140.0 141.6 …… 176.6
坐高( x2) cm 76.0 76.2 …… 89.7
体重( x3) kg 36.3 31.4 …… 57.7
肩宽( x4) cm 32.0 29.0 …… 37.0
…… …… …… …… ……
上肢长( x7) cm 61.1 60.6 …… 75.8
小腿围( x13) cm 31.6 29.0 …… 35.5
上臂紧张围( x14) cm 22.3 19.8 …… 24.0
上臂放松围( x15) cm 20.5 17.5 …… 22.0
指标、单位 例号
聚类分析,14岁男中学生十五项形态指标
15
根据聚类对象的不同,聚类分析一般
可分为两类。一种是对指标(变量)进行
聚类,另一种是对样品进行聚类。
聚类分析的方法有
系统聚类法和快速聚类法
常用的聚类统计量有两类。一类是距离,另
一类是相似系数。在计算距离时,为消除原指标
量纲不同的影响,可以在计算距离前先对各指标
进行标准化处理。
16
聚类过程 (最小相关系数法 )
步 1 类 (X14)和类 (X15) 产生新类 (16) r=0.963
步 2 类 (X8)和类 (X9) 产生新类 (17) r=0.960
步 3 类 (X3)和类 (X11) 产生新类 (18) r=0.920
步 4 类 (X1)和类 (X2) 产生新类 (19) r=0.910
步 5 类 (X12)和类 (X13) 产生新类 (20) r=0.881
…… …… …… ……
步 12 类 (17)和类 (25) 产生新类 (27) r=0.670
步 13 类 (23)和类 (26) 产生新类 (28) r=0.559
步 14 类 (27)和类 (28) 产生新类 (29) r=0.292
17
x3
x11
x14
x15
x12
x13
x2
x4
x5
x1
x7
x8
x9
x6
x10
14岁男中学生 15项形态指标聚类结果
第一类,长度指标
第二类,躯干指标
第三类,重量围度指标
0.20.10.0 0.3 0.4 0.5 0.6 0.7
距离
身高、手长、小腿加足高
小腿长、上肢长、足长
坐高、肩宽、骨盆宽
体重、胸围、大腿围
小腿围、上臂紧张围
上臂放松围
18
样品聚类
208名男中学生素质测试结果
编 号
指 标
1 2 ? 2 0 8
仰卧起坐 x
1
( 次 ) 39 41 ? 35
60 米跑 x
2
( 秒 ) 1 1, 0 9, 9 ? 9, 5
屈臂悬垂 x
3
( 秒 ) 50 45 ? 16
立定跳远 x
4
( 厘米 ) 1 7 0 1 7 2 ? 1 9 1
4 0 0 米跑 x
5
( 秒 ) 1 0 0, 0 9 1, 3 ? 9 9, 7
19
样品聚类结果
分三类各指标标准化的均数
类别 频数 x
1
x
2
x
3
x
4
x
5
Ⅰ 76 -0, 59 7 0,9 87 -0, 47 6 -0, 97 7 0,6 63
Ⅱ 54 0,0 42 -0, 33 5 -0, 56 0 0,4 67 0,2 30
Ⅲ 78 0,5 52 -0, 73 0 0,8 52 0,6 28 -0, 80 5
20
x1
x2
x3x4
x5
仰卧起坐
60米跑
屈臂悬垂立定跳远
400米跑
类别 Ⅰ
类别 Ⅲ类别 Ⅱ
三类学生的素质特征
21
第二十章
主成分分析与因子分析
22
12名男中学生身高、体重资料
编号
身高 x
1
( cm )
标准化 X
1
体重 x
2
( kg )
标准化 X
2
1 156.8 - 1.44 88 42.0 - 1.23 37
2 158.5 - 1.05 47 43.3 - 0.93 34
3 159.5 - 0.82 29 45.6 - 0.40 22
4 160.3 - 0.63 75 45.1 - 0.51 77
5 160.6 - 0.56 79 43.5 - 0.88 72
6 162.0 - 0.24 34 44.8 - 0.58 70
7 163.5 0.1043 48.8 0.3368
8 164.3 0.2898 44.7 - 0.61 01
9 165.0 0.4520 50.5 0.7294
10 165.5 0.5679 53.5 1.4223
11 169.6 1.5183 51.2 0.89 1 1
12 171.0 1.8429 55.1 1.7918
23
12名男中学生身高、体重资料
X1
X2
1 2-2 -1
-2
-1
0
1
2 Z1Z2
24
20
30
40
50
60
70
140 150 160 170 180
éí ??
ì?
??
208名 14岁男中学生身高、体重散点图
r = 0.8486
25
-3
-1
1
3
-3 -1 1 3
X1
X2 Z
1Z
2
208名 14岁男中学生身高与体重(标准化)
26
主成分与标准化原指标的关系
?
?
?
???????
??????
2
0
1
0
2
2
0
1
0
1
45c o s45s i n
45s i n45c o s
xxZ
xxZ
?
?
?
???????
??????
212
211
7 0 7 1.07 0 7 1.0
7 0 7 1.07 0 7 1.0
xxC
xxC
Z1,Z2的方差分别为
8 4 8 6.12 1 ?Zs 1514.02
2 ?Zs
Z1的贡献率为 0.9243
27
原变量 标准化变量 主成分
编号
X
1
X
2 1
x ?
2
x ? C
1
C
2
1 14 0.0 36,3 -2,201 -1,153 -2,371 0,741
2 14 1.6 31,4 -2,004 -1,862 -2,734 0,100
∶ ∶ ∶ ∶ ∶ ∶ ∶
19 14 2.7 32,7 -1,869 -1,674 -2,505 0,138
20 14 7.0 54,8 -1,339 1,526 0,132 2,026
∶ ∶ ∶ ∶ ∶ ∶ ∶
20 7 17 5.9 52,8 2,218 1,236 2,443 -0,694
20 8 17 6.6 57,7 2,304 1,946 3,005 -0,254
均 值 15 7.9 44,3 0,000 0,000 0,000 0,000
方 差 65,996 9 47,700 4 1,0000 1,0000 1,8486 0,1514
相关系数 0,8486 0,8486 0,000
原变量 标准化变量 主成分
编号
X
1
X
2 1
x ?
2
x ? C
1
C
2
1 14 0.0 36,3 -2,201 -1,153 -2,371 0,741
2 14 1.6 31,4 -2,004 -1,862 -2,734 0,100
∶ ∶ ∶ ∶ ∶ ∶ ∶
19 14 2.7 32,7 -1,869 -1,674 -2,505 0,138
20 14 7.0 54,8 -1,339 1,526 0,132 2,026
∶ ∶ ∶ ∶ ∶ ∶ ∶
20 7 17 5.9 52,8 2,218 1,236 2,443 -0,694
20 8 17 6.6 57,7 2,304 1,946 3,005 -0,254
均 值 15 7.9 44,3 0,000 0,000 0,000 0,000
方 差 65,996 9 47,700 4 1,0000 1,0000 1,8486 0,1514
相关系数 0,8486 0,8486 0,000
原变量 标准化变量 主成分
编号
X
1
X
2
1
x ?
2
x ? Z
1
Z
2
1 140.0 36.3 - 2.201 - 1.153 - 2.371 0.741
2 141.6 31.4 - 2.004 - 1.862 - 2.734 0.100
∶ ∶ ∶ ∶ ∶ ∶ ∶
19 142.7 32.7 - 1.869 - 1.674 - 2.505 0.138
20 147.0 54.8 - 1.339 1.526 0.132 2.02 6
∶ ∶ ∶ ∶ ∶ ∶ ∶
207 175.9 52.8 2.218 1.236 2.443 - 0.694
208 176.6 57.7 2.304 1.946 3.005 - 0.254
均 值 157.9 44.3 0.000 0.000 0.000 0.000
方 差 65.9969 47.7004 1.0000 1.0000 1.8486 0.1514
相关系数 0.8486 0.8486 0.000
男中学生身高与体重资料主成分分析
28
主成分分析
Principal component analysis
用较少的几个彼此不相关的 综合指标 尽可
能多地反映原来众多变量的信息。
主成分就是由原来 m个变量线性组合出来
的较少几个互不相关、同时蕴藏原变量大部分
信息的新变量。
29
主成分的数学模型
? 一组指标所蕴含的综合信息主要反映在各指标的变
异与指标间的相互关系中 。 原指标与主成分的关系
可以用下式表示,
?
?
?
?
?
?
?
????
????
????
mmmmmm
mm
mm
XaXaXaZ
XaXaXaZ
XaXaXaZ
?
?
?
?
2211
22221212
12121111
30
主成分的性质:
1.各主成分相互独立。
2.主成分的方差是相关矩阵的特征值。
3.标准化原指标的方差都是 1,方差的
总和就是指标的个数。
31
主成分分析实例
表 20-2 20例肝病患者的 4项肝功能指标的观测值
病例号
转氨酶
SG P T ( U /L )
肝大指数
硫酸锌浊度
Z nT ( U )
甲胎球蛋白
A F P ( ng/m l )
1 40 2.0 5 20
2 10 1.5 5 30
3 120 3.0 13 50
4 250 4.5 18 0
5 120 3.5 9 50
,,,,,
18 40 1.0 10 0
19 20 1.0 12 60
20 120 2.0 20 0
32
表 20-3 简单统计量
X1 X2 X3 X4
X1 1,0000 0,6950 0,2195 0,0249
X2 0,6950 1,0000 - 0,1480 0,1351
X3 0,2195 - 0,1480 1,0000 0,0713
X4 0,0249 0,1351 0,0713 1,0000
X1 X2 X3 X4
M ean 138.000 2,325 15.000 35.500
S tD 88.888 1,055 7,420 21.879
表 20-4 相关矩阵
33
表 20-5 相关矩阵的特征值
Eig enva l ue D i fference P ropo rtio n C um ula tiv e
X1 1.71 82 5 0.62 47 2 0.42 96 0 0.42 96 0
X2 1.09 35 4 0.1 12 19 0.27 34 0 0.70 29 0
X3 0.98 13 5 0.77 44 8 0.24 53 0 0.94 83 0
X4 0.20 68 7 0.05 17 0 1.00 00 0
34
表 20-6 相关矩阵的特征向量
Z1 Z2 Z3 Z4
X1 0.69 99 64 0.09 50 10 - 0.24 00 49 - 0.66 58 83
X2 0.68 97 98 - 0.28 36 47 0.05 84 63 0.66 35 55
X3 0.08 79 39 0,904 15 9 - 0.27 03 14 0.31 88 95
X4 0.16 27 77 0.30 49 83 0.93 05 32 - 0.12 08 30
Z1= 0.699964X1+ 0.689798X2+ 0.087939X3+ 0.162777X4
Z2= 0.095010X1- 0.283647X2+ 0.904159X3+ 0.304983X4
Z3=- 0.240049X1+ 0.058463X2- 0.270314X3+ 0.930532X4
主成分表达式:
35
例:一肝病患者,测得 4项肝功能指标:
SGPT(转氨酶) = 260 肝大指数 = 5.0
ZnT(硫酸锌浊度) = 14 AFT(甲胎球蛋白) = 10
指标标准化,代入主成分公式,得:
Z1 = 2.50865; Z2 = -1.06626; Z3 = -1.22943
该肝病患者可能为急性炎症
X1 X2 X3 X4
M ean 138.000 2,325 15.000 35.500
S tD 88.888 1,055 7,420 21.879
简单统计量
36
表 20-7 20例肝病患者按主成分得分的分组
病例号
转氨酶
X1
肝大指数
X 2
硫酸锌
浊度 X3
甲胎球
蛋白 X4
第一主成分
得分 Z1
第二主成分
得分 Z2
第三主成分
得分 Z3
分类 G
1 40 2.0 5 20 - 1.2181 - 1.4520 - 0.0483 3
2 10 1.5 5 30 - 1.7069 - 1.2102 0.4303 3
3 120 3.0 13 50 0.3839 - 0.2423 0.7756 3
4 250 4.5 18 0 2.0758 - 0.5944 - 1.801 1 1
5 120 3.5 9 50 0.6634 - 0.8642 0.9490 3
6 10 1.5 12 50 - 1.4752 - 0.0784 1.0259 3
7 40 1.0 19 40 - 1.5573 0.8017 0.2369 2
,,,,,,,,,
18 40 1.0 1 0 0 - 1.9616 - 0.8526 - 1.1365 2
19 20 1.0 12 60 - 1.6490 0.2061 1.3965 3
20 120 2.0 20 0 - 0.5591 0.1826 - 1.6614 2
病例号
转氨酶
X1
肝大指数
X 2
硫酸锌
浊度 X3
甲胎球
蛋白 X4
第一主成分
得分 Z1
第二主成分
得分 Z2
第三主成分
得分 Z3
分类 G
1 40 2.0 5 20 - 1.2181 - 1.4520 - 0.0483 3
2 10 1.5 5 30 - 1.7069 - 1.2102 0.4303 3
3 120 3.0 13 50 0.3839 - 0.2423 0.7756 3
4 250 4.5 18 0 2.0758 - 0.5944 - 1.801 1 1
5 120 3.5 9 50 0.6634 - 0.8642 0.9490 3
6 10 1.5 12 50 - 1.4752 - 0.0784 1.0259 3
7 40 1.0 19 40 - 1.5573 0.8017 0.2369 2
,,,,,,,,,
18 40 1.0 1 0 0 - 1.9616 - 0.8526 - 1.1365 2
19 20 1.0 12 60 - 1.6490 0.2061 1.3965 3
20 120 2.0 20 0 - 0.5591 0.1826 - 1.6614 2
病例号
转氨酶
X1
肝大指数
X 2
硫酸锌
浊度 X3
甲胎球
蛋白 X4
第一主成分
得分 Z1
第二主成分
得分 Z2
第三主成分
得分 Z3
分类 G
1 40 2.0 5 20 -1.2181 -1.4520 -0.0483 3
2 10 1.5 5 30 -1.7069 -1.2102 0.4303 3
3 120 3.0 13 50 0.3839 -0.2423 0.7756 3
4 250 4.5 18 0 2.0758 -0.5944 -1.801 1 1
5 120 3.5 9 50 0.6634 -0.8642 0.9490 3
6 10 1.5 12 50 -1.4752 -0.0784 1.0259 3
7 40 1.0 19 40 -1.5573 0.8017 0.2369 2
,,,,,,,,,
18 40 1.0 10 0 -1.9616 -0.8526 -1.1365 2
19 20 1.0 12 60 -1.6490 0.2061 1.3965 3
120 2.0 20 0 -0.5591 0.1826 -1.6614 2
37
因子模型
主成分分析通过线性组合将原变量综合成几个
主成分, 用较少的综合指标来代替原来较多的指
标 。
因子分析是寻找公共因子的模型分析方法, 它
是在主成分的基础上构筑若干意义较为明确的公
因子, 以它们为框架分解原变量, 以此考察原变
量间的联系与区别 。
38
因子分析
factor analysis
在主成分的基础上构筑若干意义较为明
确的公因子。
将原变量分解为 共性部分 和 个性部分 ;
洞察原变量间的联系和区别。
39
因子分析
例 对 50 名研究生进行健康状况抽样调查 。 调查问卷
设计了如下七个问题, 每个问题的回答由好到差按四个等
级记分 ( 分别赋值 1,2,3,4) 。
( 1)对自己健康状况的满意程度( X1);
( 2)是否需要调养身体( X2);
( 3)身体有不适或不舒服的感觉( X3);
( 4)有生病的感觉( X4);
( 5)有紧张情绪和压力感( X5);
( 6)晚间休息感到不能很快入睡( X6);
( 7)吃饭有时觉得胃口不好( X7)。
40
方差及主成分的贡献率
主成分 方 差 贡献率 (%) 累计贡献率 (%)
1 2.9249 41.78 41.78
2 1.6388 23.41 65.20
3 0.7690 10.99 76.18
4 0.5966 8.52 84.70
5 0.4941 7.06 91.76
6 0.3170 4.53 96.29
7 0.2596 3.71 100.00
41
因子分析 (主成分估计 )
变 量 F1载荷 F2载荷 共同度 特殊方差
X1 0.7248 -0.5316 0.8079 0.1921
X2 0.6667 0.0283 0.4453 0.5547
X3 0.6346 -0.4282 0.5861 0.4139
X4 0.7867 -0.2891 0.7024 0.2976
X5 0.7792 0.4103 0.7755 0.2245
X6 0.3777 0.6950 0.6256 0.3744
X7 0.4286 0.6612 0.6209 0.3791
特征值 2.9249 1.6388
累计贡献 0.4178 0.6520
42
方差最大 (Varimax)正交旋转后的因子载荷
变 量 F1载荷 F2载荷 共同度 特殊方差
X1 0.8969 -0.0589 0.8079 0.1921
X2 0.5471 0.3820 0.4453 0.5547
X3 0.7653 -0.0202 0.5861 0.4139
X4 0.8188 0.1788 0.7024 0.2976
X5 0.4367 0.7647 0.7755 0.2245
X6 -0.0548 0.7891 0.6256 0.3744
X7 0.0063 0.7879 0.6209 0.3791
43
m个相互独立,均值为 0,方差为 1的变量 F1,
F2,…, Fm( m≤p),称为原变量的公因子
(common factor)。相应的因子模型,
x a F a F a F e
m m1 11 1 12 2 1 1
? ? ? ? ??
x a F a F a F e
m m2 21 1 22 2 2 2
? ? ? ? ??
? ? ? ? ?
x a F a F a F e
p p p pm m p
? ? ? ? ?
1 1 2 2
?
因子分析
44
因子分析步骤
1,对资料作主成分分析得到特征根、贡献率及累
积贡献率。
2,按照 m尽量小、累积贡献率尽可能大的原则确
定共性因子数 m,或只保留特征值大于 1的公因子。
3.变异最大正交旋转 为了使公因子的意义更加明
确,可使每个变量在各公因子上的载荷向两极分化,
在一个公因子上的载荷尽量大,而在其余公因子上的
载荷尽量小。
45
表 20-8 某医院三年医疗工作质量有关指标实测值
因子分析实例
年月
X0
门诊
人次
X1
出院
人数
X2
病床
利用率
X3
病床周
转次数
X4
平均住
院天数
X5
?
抢救
成功率
X9 ( % )
91,01 4.34 389 99,06 1.23 25,46 ? 61,66
91,02 3.45 271 88,28 0.85 23,55 ? 73,33
91,03 4.38 385 10 3.97 1.21 26,54 ? 76,79
91,04 4.18 377 99,48 1.19 26,89 ? 63,16
,,,,,, ?,
93,1 1 3.75 586 90,31 1.12 23,73 ? 93,89
93,12 3.77 627 86,47 1.24 23,22 ? 89,80
46
表 20-9 约相关矩阵的特征值
1 2 3 4 ? 9
Eig enva l ue 2.80 74 1.99 1 1 1.44 83 0.78 51 ? 0.1 18 6
D i ffer ence 0.81 63 0.54 28 0.66 32 0.10 44 ?
P r opo rtio n 0.31 19 0.22 12 0.16 09 0.08 72 ? 0.01 32
C um ula tiv e 0.31 19 0.53 32 0.69 41 0.78 13 ? 1.00 00
47
表 20-10 因子载荷阵
F A C T OR 1 F A C T OR 2 F A C T OR 3 F A C T OR 4
X1 - 0,25 4 5 8 0,77 0 0 0 0,00 7 7 6 0,47 0 1 7
X2 0,76 5 8 7 0,12 7 6 8 0,09 0 5 5 0,50 8 4 4
X 3 0,24 4 3 4 0,77 6 3 9 - 0,08 5 7 4 - 0,44 3 0 4
X 4 0,68 9 2 7 0,66 0 5 8 - 0,07 0 5 9 - 0,01 9 7 3
X 5 - 0,72 4 2 3 0,12 4 5 7 0,44 0 1 3 0,18 9 3 9
X 6 0,03 9 2 9 - 0,07 0 7 6 0,88 8 2 1 - 0,00 8 8 6
X 7 - 0,40 4 6 2 - 0,16 3 8 1 - 0,66 3 2 6 0,24 2 7 0
X 8 - 0,62 2 7 6 0,40 1 9 0 0,04 1 3 2 - 0,1 1 6 3 5
X 9 0,73 7 3 2 - 0,36 5 9 0 0,05 8 9 4 0,02 0 8 9
48
F A C T OR 1 F A C T OR 2 F A C T OR 3 F A C T OR 4
X1 0.49 44 6 0.28 56 8 - 0.06 78 3 0.74 03 6
X2 - 0.68 02 1 0.15 69 2 0.14 71 9 0.60 04 9
X 3 0.13 73 8 0.92 00 4 0.02 79 4 - 0.00 30 0
X 4 - 0.35 39 4 0.80 89 3 0.05 60 7 0.36 61 4
X 5 0.73 16 4 - 0.33 72 8 0.30 12 8 0.17 25 8
X 6 0.03 88 6 - 0.16 00 8 0.87 59 8 0.03 26 4
X 7 0.19 34 8 - 0.30 68 8 - 0.74 59 2 0.03 68 0
X 8 0.74 16 1 0.1 16 15 - 0.02 95 9 0.01 58 6
X 9 - 0.80 78 2 - 0.01 28 8 0.15 79 4 - 0.06 12 5
表 20-18 四次方最大正交旋转后的因子载荷阵
因子旋转
X1:门诊人次 X4:病床周转次数 X7:病死率
X2:出院人数 X5:平均住院天数 X8:诊断符合率
X3:病床利用率 X6:治愈好转率 X9:抢救成功率
49
公因子所解释的意义
FACTOR1 门诊人次 X1、出院人数 X2、平均住院天数 X5、
诊断符合率 X8、抢救成功率 X9
FACTOR2 病床利用率 X3、病床周转次数 X4
FACTOR3 治愈好转率 X6、病死率 X7
FACTOR4 门诊人次 X1、出院人数 X2
综合因子
利用因子
水平因子
数量因子
50
F A C T O R 1 F A C T O R 2 F A C T O R 3 F A C T O R 4
2,62812 9 1,85428 0 1,47053 6 1,07900 5
表 20-19 由每个公因子所解释的方差
X1 X2 X3 X4 X5 X6 X7 X8 X9
0,8788 0,8696 0,8661 0,9168 0,7696 0,7956 0,6894 0,5646 0,6814
表 20-20 主成分因子分析后的公共度
合计,7.03195;累积贡献率,7.03195/9=0.7813
判别分析
Discriminate analysis
对所研究的对象进行分类的方法
已知分类的训练样品
判别函数
决定新样品的归属
2
逐步判别分析:
在判别函数中, 判别作用大的指标尽可
能不要遗漏, 作用小的指标则要尽量排除 。
逐步判别分析可对指标进行筛选, 挑出
必要的, 较好的指标组合, 建立判别函数,
从而提高判别效果 。
3
胆囊切除手术
方式研究
4
患者一般情况
统一编号 T _N UM 编号 NUM 分组 G ROU P 容易 =1,困难 =2,开腹 =3
姓名 XM 性别 XB 男 =1,女 =0
年龄
( 岁 )
NL
体重
( kg )
T Z H
住 院 号
Z YH
缺省
=9999 99
术后天数 S HT S 诊断 ZD 并存病 B CB
病理诊断 B L Z D 病程 (月) B CH 绞痛次数 JTCS
白细胞数 B XBS 中性 N (%) Z HX 确诊急胆次数 JD CS
治 疗 方 式
F S H
住院 =1,急诊 =2,门诊 =3,其它 =0
既 往 手 术
JWSS
有 =1,无 =0
手术次数 S S CS 手术名称 S S M C 手术间隔时间 (年) JG S J
5
囊壁模糊
NM H
是 =1,否 =0
囊壁毛糙
NM C
是 =1,否 =0 囊壁增厚 NZ H 是 =1,否 =0
囊壁厚 ( mm ) NBH 胆囊大小 胆囊长度 NBCD 胆囊径 NBJ
结石数 J S S H
数颗 =7,十余颗 = 15,数十颗 = 26,充满 = 50 (结石大小以 4 × 2 m m
表示)
结石大小
( mm )
绿豆 4 × 2,赤豆 6 × 3,黄豆 10 × 4,米粒 3 × 2,细小 2 × 1
结石长 JSCH 结石宽 JSK 囊颈结石 N JJS 有 =1,无 =0
三角清晰
S JQX
是 =1,否 =0
三角模糊
S JM H
是 =1,否 =0
三角粘连
S JN L
是 =1,否 =0
CBD ( mm ) CBD (胆总管管径) CB D 结石 C B D_ JS 有 =1,无 =0
囊萎缩 DN WS 是 =1,否 =0 邻近粘连 L JN L 是 =1,否 =0
B超结果
6
胆囊造影 D N Z Y
显影 =1
不显 =0
收缩功能 S SG N
良好 =3,尚好 =2,
差 =1,无 =0
结石造影 J SZ Y
显影 =1
不显 =0
结石数目 N _ J S
胆总管造影
ZG Z Y
显影 =1
不显 =0
口胆造影
G OT 0 ~ 55 GP T 0 ~ 54 A KP 42 ~ 121
? - G P
R _ GP
3 ~ 50 A 35 ~ 55 G 20 ~ 32
尿酸
N SU A N
155 ~ 428
尿素氮
N SD
2,9 ~ 7,5 肌酐 J G A N 44 ~ 133
肝功、肾功( 附正常范围 )
7
1,训练样本:
腹腔镜手术容易组 153例, 困难组 63例,
开腹手术组 58例 。 合计 274例 。
检测样本 16例 。
2,描述性统计分析
对所有的指标进行描述性统计分析 。 定量
指标 24项, 定性指标 11项 。
资料收集、整理、初步分析
8
3,筛选原则
类间距离越大, 分类效果越好;利用方差
分析检验 方程是否有意义 。
4,筛选结果
利用逐步判别分析, 筛选出有判别能力的
指标 15项 。
指标筛选
9
线性判别函数
判别方程的系数
编号 变量
容易 困难 开腹
1 常数项 -3 3,68 3 17 -3 6,37 5 80 -4 2,96 5 05
2 三角粘连 -0,2 44 6 8 0,06 74 7 7,25 00 8
3 三角模糊 -2,8 08 4 9 -1,6 99 7 7 0,39 48 9
4 囊壁增厚 0,19 65 2 2,40 33 6 2,45 90 4
∶ ∶ ∶ ∶ ∶
14 囊壁模糊 -0,9 81 0 2 0,07 20 3 -0,4 74 2 8
15 绞痛次数 0,12 58 9 0,18 34 7 0,26 90 1
16 病程 -0,0 00 0 82 4 0,00 02 9 90 -0,0 09 1 8
10
列出判别方程
Y ( 容易 ) = - 3 3, 6 8 3 2 -0, 2 4 4 6 8 S JN L - 2, 8 0 84 9 S J M H + 0, 1 9 6 5 2 N Z H
+ ? + 0, 12 5 8 9 J T C S - 0, 0 0 0 0 8 24 B C H
Y( 困难 ) = - 3 6, 3 7 5 8 + 0, 0 6 7 4 7 S J N L - 1, 6 9 97 7 S J M H + 2, 4 0 3 3 6 N Z H
+ ? + 0, 18 3 4 7 J T C S + 0, 0 0 0 2 9 9 B C H
Y( 开腹 ) = - 4 2, 9 6 5 1 + 7, 2 5 0 0 8 S J N L + 0, 3 9 48 9 S J M H + 2, 4 5 9 0 4 N Z H
+ ? + 0, 26 9 0 1 J T C S - 0, 0 0 9 1 8 B C H
11
分类结果
原分类
容易 困难 开腹
合计
容易 13 8 13 2 15 3
困难 22 35 6 63
开腹 6 8 44 58
合计 16 6 56 52 27 4
先验概率 0,55 84 0,22 99 0,21 17 1,00
回代判别效果
回代总的判别成功率为 79.20%,错误率
为 20.80%; 困难组与容易组混杂严重,判别正
确率较低。
12
新病例判别
概率
编号 所在组 分入组
容易 困难 开腹
1 1 1 0,91 30 0,08 43 0,00 26
2 1 1 0,93 48 0,06 45 0,00 07
3 1 1 0,54 17 0,18 28 0,27 55
4 1 2* 0,08 07 0,91 62 0,00 31
∶ ∶ ∶ ∶ ∶ ∶
15 2 1* 0,90 81 0,08 98 0,00 21
16 3 3 0,00 00 0,00 00 1,00 00
结论:在 16例患者中,有 3例错判,判别分
类与实际情况的吻合率为 81.25%。
13
聚类分析
cluster analysis
可和判别分析结合应用
聚类统计量:相似系数、距离
研究“物以类聚”的一种数理统计方法。
将观察对象依据某些特征加以归类
14
1 2 …… 208
身高( x1) cm 140.0 141.6 …… 176.6
坐高( x2) cm 76.0 76.2 …… 89.7
体重( x3) kg 36.3 31.4 …… 57.7
肩宽( x4) cm 32.0 29.0 …… 37.0
…… …… …… …… ……
上肢长( x7) cm 61.1 60.6 …… 75.8
小腿围( x13) cm 31.6 29.0 …… 35.5
上臂紧张围( x14) cm 22.3 19.8 …… 24.0
上臂放松围( x15) cm 20.5 17.5 …… 22.0
指标、单位 例号
聚类分析,14岁男中学生十五项形态指标
15
根据聚类对象的不同,聚类分析一般
可分为两类。一种是对指标(变量)进行
聚类,另一种是对样品进行聚类。
聚类分析的方法有
系统聚类法和快速聚类法
常用的聚类统计量有两类。一类是距离,另
一类是相似系数。在计算距离时,为消除原指标
量纲不同的影响,可以在计算距离前先对各指标
进行标准化处理。
16
聚类过程 (最小相关系数法 )
步 1 类 (X14)和类 (X15) 产生新类 (16) r=0.963
步 2 类 (X8)和类 (X9) 产生新类 (17) r=0.960
步 3 类 (X3)和类 (X11) 产生新类 (18) r=0.920
步 4 类 (X1)和类 (X2) 产生新类 (19) r=0.910
步 5 类 (X12)和类 (X13) 产生新类 (20) r=0.881
…… …… …… ……
步 12 类 (17)和类 (25) 产生新类 (27) r=0.670
步 13 类 (23)和类 (26) 产生新类 (28) r=0.559
步 14 类 (27)和类 (28) 产生新类 (29) r=0.292
17
x3
x11
x14
x15
x12
x13
x2
x4
x5
x1
x7
x8
x9
x6
x10
14岁男中学生 15项形态指标聚类结果
第一类,长度指标
第二类,躯干指标
第三类,重量围度指标
0.20.10.0 0.3 0.4 0.5 0.6 0.7
距离
身高、手长、小腿加足高
小腿长、上肢长、足长
坐高、肩宽、骨盆宽
体重、胸围、大腿围
小腿围、上臂紧张围
上臂放松围
18
样品聚类
208名男中学生素质测试结果
编 号
指 标
1 2 ? 2 0 8
仰卧起坐 x
1
( 次 ) 39 41 ? 35
60 米跑 x
2
( 秒 ) 1 1, 0 9, 9 ? 9, 5
屈臂悬垂 x
3
( 秒 ) 50 45 ? 16
立定跳远 x
4
( 厘米 ) 1 7 0 1 7 2 ? 1 9 1
4 0 0 米跑 x
5
( 秒 ) 1 0 0, 0 9 1, 3 ? 9 9, 7
19
样品聚类结果
分三类各指标标准化的均数
类别 频数 x
1
x
2
x
3
x
4
x
5
Ⅰ 76 -0, 59 7 0,9 87 -0, 47 6 -0, 97 7 0,6 63
Ⅱ 54 0,0 42 -0, 33 5 -0, 56 0 0,4 67 0,2 30
Ⅲ 78 0,5 52 -0, 73 0 0,8 52 0,6 28 -0, 80 5
20
x1
x2
x3x4
x5
仰卧起坐
60米跑
屈臂悬垂立定跳远
400米跑
类别 Ⅰ
类别 Ⅲ类别 Ⅱ
三类学生的素质特征
21
第二十章
主成分分析与因子分析
22
12名男中学生身高、体重资料
编号
身高 x
1
( cm )
标准化 X
1
体重 x
2
( kg )
标准化 X
2
1 156.8 - 1.44 88 42.0 - 1.23 37
2 158.5 - 1.05 47 43.3 - 0.93 34
3 159.5 - 0.82 29 45.6 - 0.40 22
4 160.3 - 0.63 75 45.1 - 0.51 77
5 160.6 - 0.56 79 43.5 - 0.88 72
6 162.0 - 0.24 34 44.8 - 0.58 70
7 163.5 0.1043 48.8 0.3368
8 164.3 0.2898 44.7 - 0.61 01
9 165.0 0.4520 50.5 0.7294
10 165.5 0.5679 53.5 1.4223
11 169.6 1.5183 51.2 0.89 1 1
12 171.0 1.8429 55.1 1.7918
23
12名男中学生身高、体重资料
X1
X2
1 2-2 -1
-2
-1
0
1
2 Z1Z2
24
20
30
40
50
60
70
140 150 160 170 180
éí ??
ì?
??
208名 14岁男中学生身高、体重散点图
r = 0.8486
25
-3
-1
1
3
-3 -1 1 3
X1
X2 Z
1Z
2
208名 14岁男中学生身高与体重(标准化)
26
主成分与标准化原指标的关系
?
?
?
???????
??????
2
0
1
0
2
2
0
1
0
1
45c o s45s i n
45s i n45c o s
xxZ
xxZ
?
?
?
???????
??????
212
211
7 0 7 1.07 0 7 1.0
7 0 7 1.07 0 7 1.0
xxC
xxC
Z1,Z2的方差分别为
8 4 8 6.12 1 ?Zs 1514.02
2 ?Zs
Z1的贡献率为 0.9243
27
原变量 标准化变量 主成分
编号
X
1
X
2 1
x ?
2
x ? C
1
C
2
1 14 0.0 36,3 -2,201 -1,153 -2,371 0,741
2 14 1.6 31,4 -2,004 -1,862 -2,734 0,100
∶ ∶ ∶ ∶ ∶ ∶ ∶
19 14 2.7 32,7 -1,869 -1,674 -2,505 0,138
20 14 7.0 54,8 -1,339 1,526 0,132 2,026
∶ ∶ ∶ ∶ ∶ ∶ ∶
20 7 17 5.9 52,8 2,218 1,236 2,443 -0,694
20 8 17 6.6 57,7 2,304 1,946 3,005 -0,254
均 值 15 7.9 44,3 0,000 0,000 0,000 0,000
方 差 65,996 9 47,700 4 1,0000 1,0000 1,8486 0,1514
相关系数 0,8486 0,8486 0,000
原变量 标准化变量 主成分
编号
X
1
X
2 1
x ?
2
x ? C
1
C
2
1 14 0.0 36,3 -2,201 -1,153 -2,371 0,741
2 14 1.6 31,4 -2,004 -1,862 -2,734 0,100
∶ ∶ ∶ ∶ ∶ ∶ ∶
19 14 2.7 32,7 -1,869 -1,674 -2,505 0,138
20 14 7.0 54,8 -1,339 1,526 0,132 2,026
∶ ∶ ∶ ∶ ∶ ∶ ∶
20 7 17 5.9 52,8 2,218 1,236 2,443 -0,694
20 8 17 6.6 57,7 2,304 1,946 3,005 -0,254
均 值 15 7.9 44,3 0,000 0,000 0,000 0,000
方 差 65,996 9 47,700 4 1,0000 1,0000 1,8486 0,1514
相关系数 0,8486 0,8486 0,000
原变量 标准化变量 主成分
编号
X
1
X
2
1
x ?
2
x ? Z
1
Z
2
1 140.0 36.3 - 2.201 - 1.153 - 2.371 0.741
2 141.6 31.4 - 2.004 - 1.862 - 2.734 0.100
∶ ∶ ∶ ∶ ∶ ∶ ∶
19 142.7 32.7 - 1.869 - 1.674 - 2.505 0.138
20 147.0 54.8 - 1.339 1.526 0.132 2.02 6
∶ ∶ ∶ ∶ ∶ ∶ ∶
207 175.9 52.8 2.218 1.236 2.443 - 0.694
208 176.6 57.7 2.304 1.946 3.005 - 0.254
均 值 157.9 44.3 0.000 0.000 0.000 0.000
方 差 65.9969 47.7004 1.0000 1.0000 1.8486 0.1514
相关系数 0.8486 0.8486 0.000
男中学生身高与体重资料主成分分析
28
主成分分析
Principal component analysis
用较少的几个彼此不相关的 综合指标 尽可
能多地反映原来众多变量的信息。
主成分就是由原来 m个变量线性组合出来
的较少几个互不相关、同时蕴藏原变量大部分
信息的新变量。
29
主成分的数学模型
? 一组指标所蕴含的综合信息主要反映在各指标的变
异与指标间的相互关系中 。 原指标与主成分的关系
可以用下式表示,
?
?
?
?
?
?
?
????
????
????
mmmmmm
mm
mm
XaXaXaZ
XaXaXaZ
XaXaXaZ
?
?
?
?
2211
22221212
12121111
30
主成分的性质:
1.各主成分相互独立。
2.主成分的方差是相关矩阵的特征值。
3.标准化原指标的方差都是 1,方差的
总和就是指标的个数。
31
主成分分析实例
表 20-2 20例肝病患者的 4项肝功能指标的观测值
病例号
转氨酶
SG P T ( U /L )
肝大指数
硫酸锌浊度
Z nT ( U )
甲胎球蛋白
A F P ( ng/m l )
1 40 2.0 5 20
2 10 1.5 5 30
3 120 3.0 13 50
4 250 4.5 18 0
5 120 3.5 9 50
,,,,,
18 40 1.0 10 0
19 20 1.0 12 60
20 120 2.0 20 0
32
表 20-3 简单统计量
X1 X2 X3 X4
X1 1,0000 0,6950 0,2195 0,0249
X2 0,6950 1,0000 - 0,1480 0,1351
X3 0,2195 - 0,1480 1,0000 0,0713
X4 0,0249 0,1351 0,0713 1,0000
X1 X2 X3 X4
M ean 138.000 2,325 15.000 35.500
S tD 88.888 1,055 7,420 21.879
表 20-4 相关矩阵
33
表 20-5 相关矩阵的特征值
Eig enva l ue D i fference P ropo rtio n C um ula tiv e
X1 1.71 82 5 0.62 47 2 0.42 96 0 0.42 96 0
X2 1.09 35 4 0.1 12 19 0.27 34 0 0.70 29 0
X3 0.98 13 5 0.77 44 8 0.24 53 0 0.94 83 0
X4 0.20 68 7 0.05 17 0 1.00 00 0
34
表 20-6 相关矩阵的特征向量
Z1 Z2 Z3 Z4
X1 0.69 99 64 0.09 50 10 - 0.24 00 49 - 0.66 58 83
X2 0.68 97 98 - 0.28 36 47 0.05 84 63 0.66 35 55
X3 0.08 79 39 0,904 15 9 - 0.27 03 14 0.31 88 95
X4 0.16 27 77 0.30 49 83 0.93 05 32 - 0.12 08 30
Z1= 0.699964X1+ 0.689798X2+ 0.087939X3+ 0.162777X4
Z2= 0.095010X1- 0.283647X2+ 0.904159X3+ 0.304983X4
Z3=- 0.240049X1+ 0.058463X2- 0.270314X3+ 0.930532X4
主成分表达式:
35
例:一肝病患者,测得 4项肝功能指标:
SGPT(转氨酶) = 260 肝大指数 = 5.0
ZnT(硫酸锌浊度) = 14 AFT(甲胎球蛋白) = 10
指标标准化,代入主成分公式,得:
Z1 = 2.50865; Z2 = -1.06626; Z3 = -1.22943
该肝病患者可能为急性炎症
X1 X2 X3 X4
M ean 138.000 2,325 15.000 35.500
S tD 88.888 1,055 7,420 21.879
简单统计量
36
表 20-7 20例肝病患者按主成分得分的分组
病例号
转氨酶
X1
肝大指数
X 2
硫酸锌
浊度 X3
甲胎球
蛋白 X4
第一主成分
得分 Z1
第二主成分
得分 Z2
第三主成分
得分 Z3
分类 G
1 40 2.0 5 20 - 1.2181 - 1.4520 - 0.0483 3
2 10 1.5 5 30 - 1.7069 - 1.2102 0.4303 3
3 120 3.0 13 50 0.3839 - 0.2423 0.7756 3
4 250 4.5 18 0 2.0758 - 0.5944 - 1.801 1 1
5 120 3.5 9 50 0.6634 - 0.8642 0.9490 3
6 10 1.5 12 50 - 1.4752 - 0.0784 1.0259 3
7 40 1.0 19 40 - 1.5573 0.8017 0.2369 2
,,,,,,,,,
18 40 1.0 1 0 0 - 1.9616 - 0.8526 - 1.1365 2
19 20 1.0 12 60 - 1.6490 0.2061 1.3965 3
20 120 2.0 20 0 - 0.5591 0.1826 - 1.6614 2
病例号
转氨酶
X1
肝大指数
X 2
硫酸锌
浊度 X3
甲胎球
蛋白 X4
第一主成分
得分 Z1
第二主成分
得分 Z2
第三主成分
得分 Z3
分类 G
1 40 2.0 5 20 - 1.2181 - 1.4520 - 0.0483 3
2 10 1.5 5 30 - 1.7069 - 1.2102 0.4303 3
3 120 3.0 13 50 0.3839 - 0.2423 0.7756 3
4 250 4.5 18 0 2.0758 - 0.5944 - 1.801 1 1
5 120 3.5 9 50 0.6634 - 0.8642 0.9490 3
6 10 1.5 12 50 - 1.4752 - 0.0784 1.0259 3
7 40 1.0 19 40 - 1.5573 0.8017 0.2369 2
,,,,,,,,,
18 40 1.0 1 0 0 - 1.9616 - 0.8526 - 1.1365 2
19 20 1.0 12 60 - 1.6490 0.2061 1.3965 3
20 120 2.0 20 0 - 0.5591 0.1826 - 1.6614 2
病例号
转氨酶
X1
肝大指数
X 2
硫酸锌
浊度 X3
甲胎球
蛋白 X4
第一主成分
得分 Z1
第二主成分
得分 Z2
第三主成分
得分 Z3
分类 G
1 40 2.0 5 20 -1.2181 -1.4520 -0.0483 3
2 10 1.5 5 30 -1.7069 -1.2102 0.4303 3
3 120 3.0 13 50 0.3839 -0.2423 0.7756 3
4 250 4.5 18 0 2.0758 -0.5944 -1.801 1 1
5 120 3.5 9 50 0.6634 -0.8642 0.9490 3
6 10 1.5 12 50 -1.4752 -0.0784 1.0259 3
7 40 1.0 19 40 -1.5573 0.8017 0.2369 2
,,,,,,,,,
18 40 1.0 10 0 -1.9616 -0.8526 -1.1365 2
19 20 1.0 12 60 -1.6490 0.2061 1.3965 3
120 2.0 20 0 -0.5591 0.1826 -1.6614 2
37
因子模型
主成分分析通过线性组合将原变量综合成几个
主成分, 用较少的综合指标来代替原来较多的指
标 。
因子分析是寻找公共因子的模型分析方法, 它
是在主成分的基础上构筑若干意义较为明确的公
因子, 以它们为框架分解原变量, 以此考察原变
量间的联系与区别 。
38
因子分析
factor analysis
在主成分的基础上构筑若干意义较为明
确的公因子。
将原变量分解为 共性部分 和 个性部分 ;
洞察原变量间的联系和区别。
39
因子分析
例 对 50 名研究生进行健康状况抽样调查 。 调查问卷
设计了如下七个问题, 每个问题的回答由好到差按四个等
级记分 ( 分别赋值 1,2,3,4) 。
( 1)对自己健康状况的满意程度( X1);
( 2)是否需要调养身体( X2);
( 3)身体有不适或不舒服的感觉( X3);
( 4)有生病的感觉( X4);
( 5)有紧张情绪和压力感( X5);
( 6)晚间休息感到不能很快入睡( X6);
( 7)吃饭有时觉得胃口不好( X7)。
40
方差及主成分的贡献率
主成分 方 差 贡献率 (%) 累计贡献率 (%)
1 2.9249 41.78 41.78
2 1.6388 23.41 65.20
3 0.7690 10.99 76.18
4 0.5966 8.52 84.70
5 0.4941 7.06 91.76
6 0.3170 4.53 96.29
7 0.2596 3.71 100.00
41
因子分析 (主成分估计 )
变 量 F1载荷 F2载荷 共同度 特殊方差
X1 0.7248 -0.5316 0.8079 0.1921
X2 0.6667 0.0283 0.4453 0.5547
X3 0.6346 -0.4282 0.5861 0.4139
X4 0.7867 -0.2891 0.7024 0.2976
X5 0.7792 0.4103 0.7755 0.2245
X6 0.3777 0.6950 0.6256 0.3744
X7 0.4286 0.6612 0.6209 0.3791
特征值 2.9249 1.6388
累计贡献 0.4178 0.6520
42
方差最大 (Varimax)正交旋转后的因子载荷
变 量 F1载荷 F2载荷 共同度 特殊方差
X1 0.8969 -0.0589 0.8079 0.1921
X2 0.5471 0.3820 0.4453 0.5547
X3 0.7653 -0.0202 0.5861 0.4139
X4 0.8188 0.1788 0.7024 0.2976
X5 0.4367 0.7647 0.7755 0.2245
X6 -0.0548 0.7891 0.6256 0.3744
X7 0.0063 0.7879 0.6209 0.3791
43
m个相互独立,均值为 0,方差为 1的变量 F1,
F2,…, Fm( m≤p),称为原变量的公因子
(common factor)。相应的因子模型,
x a F a F a F e
m m1 11 1 12 2 1 1
? ? ? ? ??
x a F a F a F e
m m2 21 1 22 2 2 2
? ? ? ? ??
? ? ? ? ?
x a F a F a F e
p p p pm m p
? ? ? ? ?
1 1 2 2
?
因子分析
44
因子分析步骤
1,对资料作主成分分析得到特征根、贡献率及累
积贡献率。
2,按照 m尽量小、累积贡献率尽可能大的原则确
定共性因子数 m,或只保留特征值大于 1的公因子。
3.变异最大正交旋转 为了使公因子的意义更加明
确,可使每个变量在各公因子上的载荷向两极分化,
在一个公因子上的载荷尽量大,而在其余公因子上的
载荷尽量小。
45
表 20-8 某医院三年医疗工作质量有关指标实测值
因子分析实例
年月
X0
门诊
人次
X1
出院
人数
X2
病床
利用率
X3
病床周
转次数
X4
平均住
院天数
X5
?
抢救
成功率
X9 ( % )
91,01 4.34 389 99,06 1.23 25,46 ? 61,66
91,02 3.45 271 88,28 0.85 23,55 ? 73,33
91,03 4.38 385 10 3.97 1.21 26,54 ? 76,79
91,04 4.18 377 99,48 1.19 26,89 ? 63,16
,,,,,, ?,
93,1 1 3.75 586 90,31 1.12 23,73 ? 93,89
93,12 3.77 627 86,47 1.24 23,22 ? 89,80
46
表 20-9 约相关矩阵的特征值
1 2 3 4 ? 9
Eig enva l ue 2.80 74 1.99 1 1 1.44 83 0.78 51 ? 0.1 18 6
D i ffer ence 0.81 63 0.54 28 0.66 32 0.10 44 ?
P r opo rtio n 0.31 19 0.22 12 0.16 09 0.08 72 ? 0.01 32
C um ula tiv e 0.31 19 0.53 32 0.69 41 0.78 13 ? 1.00 00
47
表 20-10 因子载荷阵
F A C T OR 1 F A C T OR 2 F A C T OR 3 F A C T OR 4
X1 - 0,25 4 5 8 0,77 0 0 0 0,00 7 7 6 0,47 0 1 7
X2 0,76 5 8 7 0,12 7 6 8 0,09 0 5 5 0,50 8 4 4
X 3 0,24 4 3 4 0,77 6 3 9 - 0,08 5 7 4 - 0,44 3 0 4
X 4 0,68 9 2 7 0,66 0 5 8 - 0,07 0 5 9 - 0,01 9 7 3
X 5 - 0,72 4 2 3 0,12 4 5 7 0,44 0 1 3 0,18 9 3 9
X 6 0,03 9 2 9 - 0,07 0 7 6 0,88 8 2 1 - 0,00 8 8 6
X 7 - 0,40 4 6 2 - 0,16 3 8 1 - 0,66 3 2 6 0,24 2 7 0
X 8 - 0,62 2 7 6 0,40 1 9 0 0,04 1 3 2 - 0,1 1 6 3 5
X 9 0,73 7 3 2 - 0,36 5 9 0 0,05 8 9 4 0,02 0 8 9
48
F A C T OR 1 F A C T OR 2 F A C T OR 3 F A C T OR 4
X1 0.49 44 6 0.28 56 8 - 0.06 78 3 0.74 03 6
X2 - 0.68 02 1 0.15 69 2 0.14 71 9 0.60 04 9
X 3 0.13 73 8 0.92 00 4 0.02 79 4 - 0.00 30 0
X 4 - 0.35 39 4 0.80 89 3 0.05 60 7 0.36 61 4
X 5 0.73 16 4 - 0.33 72 8 0.30 12 8 0.17 25 8
X 6 0.03 88 6 - 0.16 00 8 0.87 59 8 0.03 26 4
X 7 0.19 34 8 - 0.30 68 8 - 0.74 59 2 0.03 68 0
X 8 0.74 16 1 0.1 16 15 - 0.02 95 9 0.01 58 6
X 9 - 0.80 78 2 - 0.01 28 8 0.15 79 4 - 0.06 12 5
表 20-18 四次方最大正交旋转后的因子载荷阵
因子旋转
X1:门诊人次 X4:病床周转次数 X7:病死率
X2:出院人数 X5:平均住院天数 X8:诊断符合率
X3:病床利用率 X6:治愈好转率 X9:抢救成功率
49
公因子所解释的意义
FACTOR1 门诊人次 X1、出院人数 X2、平均住院天数 X5、
诊断符合率 X8、抢救成功率 X9
FACTOR2 病床利用率 X3、病床周转次数 X4
FACTOR3 治愈好转率 X6、病死率 X7
FACTOR4 门诊人次 X1、出院人数 X2
综合因子
利用因子
水平因子
数量因子
50
F A C T O R 1 F A C T O R 2 F A C T O R 3 F A C T O R 4
2,62812 9 1,85428 0 1,47053 6 1,07900 5
表 20-19 由每个公因子所解释的方差
X1 X2 X3 X4 X5 X6 X7 X8 X9
0,8788 0,8696 0,8661 0,9168 0,7696 0,7956 0,6894 0,5646 0,6814
表 20-20 主成分因子分析后的公共度
合计,7.03195;累积贡献率,7.03195/9=0.7813