Clustering Analysis
第十九章
聚 类 分 析
判别分析,已知分为若干类的前提下,判
定观察对象的归属。
聚类分析,不知道应分多少类的情况下,
进行探索性分析,对观察对象
依据某些数量特征适当分类。
1.指标聚类( R型聚类)
2.样品聚类( Q型聚类)
第一节 相似系数
聚类分析的关键是如何定义类间的
相似性,如何把相似性数量化。
相似系数
1.指标聚类:
简单相关系数(定量):
? ?? ?
? ? ? ? 2jj2ii
jjii
ij
XXXX
XXXX
r
???
???
?
n
C 2
2
??
?
?
列联系数(定性),
R×C表 Pearson?2
0<C<1
2.样品聚类:
将 n例样品看成是 m维空间的 n个点,用两
点间距离定义相似系数。
(1)欧氏距离 ( Euclidean distance)
? ? 2jiij XXd ???
相似系数
(2)绝对距离( Manhattan distance)
jiij XXd ???
q
ji
q
ij XXd ???
相似系数
(3)明考斯基距离( Minkowski distance)
(4)马氏距离( Mahalanobis distance)
dij=X’ S-1 X
相似系数
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
jmim
2j2i
1j1i
XX
XX
XX
?
X=
?
?
?
?
?
?
?
?
?
?
?
?
?
?
mm2m1m
m22221
m11211
S S S
S S S
S S S
?
????
?
?
S=
第二节 系统聚类
1.开始各个样品或指标独为一类;
2.计算各类间相似系数,形成矩阵;
3.将相似系数最大的两类合并成新类;
4.计算新类与其余类间相似系数,形成矩阵;
5.重复第 3,4步,直至全部样品或指标并为
一类。
一、类间相似系数计算
当两类各含一个样品或指标时,两类间相似
系数即两样品或指标间相似系数 dij或 rij。
当两类含有两个或以上样品或指标时,两类
间相似系数有多种定义。
Gp,Gq表示两类,各含 np,nq个样品或指标,
共有 np×nq个相似系数。
系统聚类
1.最大相似系数法
? ?
? ? 指标聚类
样品聚类
rr
dD
ij
Gj,Gi
pq
ij
Gj,Gi
pq
M a x
M i n
qp
qp
??
??
?
?
2.最小相似系数法
? ?
? ? 指标聚类
样品聚类
rr
dD
ij
Gj,Gi
pq
ij
Gj,Gi
pq
M i n
M a x
qp
qp
??
??
?
?
系统聚类
A2

A1

B3

B1

B2

系统聚类
A2

B1

B3

A1○
B2



系统聚类
3.重心法 (样品聚类 )
qpdD pq XX?
A2

A1

B3

B1

B2

系统聚类
4.类平均法 (样品聚类 )
2
ij
qp
2
pq dnn
1
D ?? 6个平方距离的平均
5.离差平方和法 (样品聚类 )
g1g2
pq LLD ??
?
由于并类引起的合并离差平方和的增量。
3,5,7 L=8.00
13,14,17,21 L=38.75
3,5,7,13,14,17,21 L=263.71
L1- L2=263.71- 46.75=216.96
系统聚类
指标聚类举例
测量了 3454名成年女子身高 (X1)、下肢长 (X2)、
腰围 (X3)和胸围 (X4),计算得相关系数矩阵:
? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
0, 7 3 2 0, 1 7 4 0, 2 3 4 X
0, 0 5 5 0, 0 9 9 X
0, 8 5 2 X
X X X
R
4
3
2
321
0
系统聚类
指标聚类举例
? ?
?
?
?
?
?
?
?
?
?
?
?
0, 2 3 4 0, 0 9 9 G
,7 3 2 0 G
G G
R
5
4
43
1
? G1={ X1 } G2={ X2 } G3={ X3 } G4={ X4 }
? G3={ X3 } G4={ X4 } G5={ X1 X2 }
系统聚类
r35=Max(r13,r23 )= Max(0.099,0.055)=0.099
r45=Max(r14,r24 )= Max(0.234,0.174)=0.234
指标聚类举例
系统聚类
? G1={ X1 } G2={ X2 } G3={ X3 } G4={ X4 }
? G3={ X3 } G4={ X4 } G5={ X1 X2 }
? G5={ X1,X2 } G6={ X3,X4}
?G7={G5,G6}






系统聚类
4个指标聚类系统聚类图
0
1
身高 下肢长 腰围 胸围
0.8
0.6
0.4
0.2
样品聚类举例
表 19 - 1 6 名运动员 4 个运动项目的测定值
运动项目名称
能耗 X 1
( 焦耳 / 分,m
2
)
糖耗 X 2
(%) 1
1
1'
1
S
XX
X
?
?
2
2
2'
2
S
XX
X
?
?
负重下蹲 G 1 27.892 61.42 1.315 0.688
引体向上 G 2 23.475 56.83 0.174 0.088
俯卧撑 G 3 18.924 45.13 - 1.001 - 1.441
仰卧起坐 G 4 20.913 61.25 - 0.488 0.665
系统聚类
样品聚类举例 (欧氏距离)
? ? ? ?
? ? ? ? 2 8 9.10 8 8.06 8 8.01 7 4.03 1 5.1
XXXXd
22
2'
22
'
12
2'
21
'
1112
?????
????
? ? ? ?
? ? ? ? 145.3441.1688.0001.1315.1
XXXXd
22
2'
32
'
12
2'
31
'
1113
?????
????
系统聚类
? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
2, 1 6 8 0, 8 7 8 1, 8 0 3 G
1, 9 2 8 3, 1 4 5 G
1, 2 8 9 G
G G G
D
4
3
2
321
0
系统聚类样品聚类举例 (欧氏距离)
G5={G2,G4}
? ?
?
?
?
?
?
?
?
?
?
?
?
2, 1 6 8 1, 8 0 3 G
3, 1 4 5 G
G G
D
5
3
31
1
系统聚类类间距离用 最小相似系数
? ?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
2, 1 6 8 0, 8 7 8 1, 8 0 3 G
1, 9 2 8 3, 1 4 5 G
1, 2 8 9 G
G G G
D
4
3
2
321
0
系统聚类样品聚类举例
G5={G2,G4}
G6={G1,G5}
G7={G3,G6}={G1,G2,G3,G4 }
定义两类间距离可用最大或最小距离;
两类间合并一定根据最小距离。
4个运动项目样品聚类系统聚类图






0
引体
向上
G2
1
3
2
仰卧
起坐
G4
负重
下蹲
G1
俯卧

G3
系统聚类
耗能少
二、类间相似系数逐步计算
SAS,SPSS计算类间相似系数时用递推公
式编程。
系统聚类
|DD|DDDD 2kq2kp2pq2kqq2kpp2kr ?????????
三、聚类实例分析
相似系数定义及类间相似系数定义不同,
系统聚类结果有所差异。
在分类变量较多时差异愈加明显,在聚
类分析前尽可能选择有效变量。
结合专业知识,详细解读聚类图。
系统聚类
第三节 动态样品聚类
系统聚类的缺点:
1.耗费较多的计算资源来储存相似系数矩
阵,计算速度缓慢;
2.样品一旦归类后就不再变动。
动态样品聚类( k-means法):
1.指定拟分类数目 k,随机选择 k个样品作为
凝聚点各自成一类,各类的重心分别是 k个样
品观测值构成的向量,记作 X1,X2,··,Xk;
2.顺序选择 n个样品中的一个,计算与
X1,X2,··,Xk间的欧氏距离,将该样品归类到
距离最小的那一类,同时计算该类的重心即
均值向量;重复此过程直至 n个样品全部归类,
k类新的重心仍记作 X1,X2,··,Xk。
3.重复第二步,直至所有样品的归类与上
一步相同为止。
第四节 有序样品聚类
无序样品分类:
有序样品分类:如生长发育资料的年龄顺序。
表 19 - 5 7 ~ 16 岁 女学生身高平均增长量
样品序号 1 2 3 4 5 6 7 8 9 10
年龄(岁) 7 8 9 10 11 12 13 14 15 16
身高增长量
( cm )
3.19 5.36 4.58 5.39 4.97 4.93 4.67 2.41 1.64 0.35
欲将 n个样品分割成 k类,根据排列组合原理
共有 种方法,如将 10个样品分成 5类
共有 种方法。
???????? ?? 1k 1n
12615 110 ???
?
?
???
?
?
?
最优分割法
计算类直径(离均差平方和):
? ? ? ?rl
j
il
rlrr XX XX)j,i(D
r
r
??? ?
?

有序样品聚类
? ? ? ?
? ?
? ? ? ?
? ? 97.42/58.436.5X
3 0 4.097.458.497.436.5)3,2(D
2 7 5.42/36.519.3X
3 5 4.22 7 5.436.52 7 5.419.3)2,1(D
22
22
???
?????
???
?????
有序样品聚类
表 19 - 5 7 ~ 16 岁 女学生身高平均增长量
样品序号 1 2 3 4 5 6 7 8 9 10
年龄(岁) 7 8 9 10 11 12 13 14 15 16
身高增长量
( cm )
3.19 5.36 4.58 5.39 4.97 4.93 4.67 2.41 1.64 0.35
类直径 D ( i r,j r )
样 品 序 号 i
r
样品
序号
j
r
1 2 3 4 5 6 7 8 9 10
2 2.354
3 2.416 0.304
4 3.187 0.422 0.328
5 3.279 0.437 0.328 0.088
6 3.324 0.453 0.330 0.130 0.001
7 3.328 0.571 0.401 0.266 0.053 0.034
8 8.026 6,247 5.601 5.592 4.543 3.842 2.554
9 14.982 13.995 12.571 12.284 9.972 8.031 4.960 0.296
10 27.819 27.472 24.773 23.714 19.458 15.534 9.863 2.167 0.832 0
有序样品聚类
计算分类目标函数 p(n,k)
(分为 k类时所有类直径之和):
? ?? ? ? ?rr
k
1r
j,iDk,npe ?
?
?
计算所有 种分法的目标函数,其中
最小的目标函数值所对应的分类称为最优
分割。
???????? ?? 11kn
有序样品聚类
表 19 - 7 目标函数值 p ( n, k )
分 类 数 目 k 样品
个数 2 3 4 5 6 7 8 9
3 0, 3 0 4(2)
4 0, 4 2 2(2) 0, 3 0 4(4)
5 0, 4 3 7(2) 0, 3 2 8(3) 0.304(5)
6 0, 4 5 3(2) 0, 3 3 0(3) 0.305(5) 0.304(6)
7 0, 5 7 1(2) 0, 4 0 1(3) 0.330(7) 0.305(7) 0.304(7)
8 3, 3 2 8(8) 0.571 (8) 0.401(8) 0.330(8) 0.305(8) 0.304(8)
9 3, 6 2 4(8) 0, 8 6 8(8) 0.571(9) 0.401(9) 0.330(9) 0.305(9) 0.304(9)
10 5, 4 9 5(8) 2, 7 3 8(8) 0, 8 6 8(10) 0, 5 7 1(10) 0, 4 0 1(10) 0, 3 3 0(10) 0, 3 0 5(10) 0.304(10)
有序样品聚类
分类数目 k的确定:
作 k与 p(n,k)的散点图。
使得 p(n,k)变动相对较小的最小 k值,相当
于图形中曲线拐点处 X-轴的坐标。
有序样品聚类
í? 1 9 - 6 ?? ±ê oˉ êy ó? ·? àà êy ?? 1? ?μ
0
1
2
3
4
5
6
1 2 3 4 5 6 7 8 9 10
·? àà êy ?? k
??
±ê

êy
p
(
1
0
,
k
)
有序样品聚类
分类(查表 19-7):
p(10,4)=0.868(10)
p(9,3)=0.868(8)
p(7,2)=0.571(2)
7 ~ 16 岁 女学生身高平均增长量
样品序号 1 2 3 4 5 6 7 8 9 10
年龄(岁) 7 8 9 10 11 12 13 14 15 16
身高增长量
( cm )
3.19 5.36 4.58 5.39 4.97 4.93 4.67 2.41 1.64 0.35
有序样品聚类
第五节 应用注意事项
1.探索性分析;密切结合专业知识;尝试多
种聚类方法。
2.变量的预处理(剔除无效变量、缺失值过
多变量);标准化变换。
3.样品分类结果应使类间差异大、类内差异
小。
THE END!