zf
第三章 聚类分析
(Cluster Analysis)
2011-10-16 2
cxt
3.1 聚类分析的基本思想
?一、什么是聚类分析?
? 聚类分析 (P54)
是根据, 物以类聚, 的道理,对样品或指标进行分
类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相
似性比与其他类的对象的相似性更强。
? 聚类分析的目的 (P54)
使 类内 对象的同质性最大化和 类间 对象的异质
性最大化。
2011-10-16 3
cxt
? 聚类分析的应用:无处不在
? 早在孩提时代,人就通过不断改进下意识中的聚类
模式来学会如何区分猫和狗,动物和植物
? 谁经常光顾商店,谁买什么东西,买多少?
? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职
业、购物种类、金额等变量分类
? 这样商店可以 …,
? 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习
惯周末时一次性大采购)
? 刻画不同的客户群的特征(用变量来刻画,就象刻画猫
和狗的特征一样)
2011-10-16 4
cxt
? 为什么这样分类?(分类的好处)
? 因为每一个类别里面的人消费方式都不一样,
需要针对不同的人群,制定不同的关系管理方
式,以提高客户对公司商业活动的参与率。
? 挖掘有价值的客户,并制定相应的促销策略,
如,对经常购买酸奶的客户
对累计消费达到 12个月的老客户
? 针对潜在客户派发广告,比在大街上乱发传单
命中率更高,成本更低!
2011-10-16 5
cxt
? 谁是银行信用卡的黄金客户?
? 利用储蓄额、刷卡消费金额、诚信度等变量对
客户分类,找出, 黄金客户, !
? 这样银行可以 ……
? 制定更吸引的服务,留住客户!比如,
? 一定额度和期限的免息透资服务!
? 百盛的贵宾打折卡!
? 在他或她生日的时候送上一个小蛋糕!
2011-10-16 6
cxt
?例 1 对 10位应聘者做智能检验。 3项指标 X,
Y和 Z分别表示数学推理能力,空间想象能力
和语言理解能力。其得分如下,选择合适的
统计方法对应聘者进行分类。
应聘者 1 2 3 4 5 6 7 8 9 10
X 28 18 11 21 26 20 16 14 24 22
Y 29 23 22 23 29 23 22 23 29 27
Z 28 18 16 22 26 22 22 24 24 24
2011-10-16 7
cxt
2011-10-16 8
cxt
2011-10-16 9
cxt
? 例如当我们对企业的经济效益进行评价时,
建立了一个由多个指标组成的指标体系,由
于信息的重叠,一些指标之间存在很强的相
关性,所以需要将相似的指标聚为一类,从
而达到简化指标体系的目的。
2011-10-16 10
cxt
? 二、聚类分析的 基本思想,
是根据一批样品的多个观测指标,具体地找出一些
能够度量样品或指标之间相似程度的统计量,然
后利用统计量将样品或指标进行归类。 把相似的
样品或指标归为一类,把不相似的归为其他类。
直到把所有的样品(或指标)聚合完毕,
? 相似样本或指标的集合称为 类 。
? 问题, 如何来选择样品(或指标)间相似的测
度指标,如何将有相似性的类连接起来?
2011-10-16 11
cxt
? 三、聚类分析类型及方法
? 1,聚类分析的类型有,
对样本分类,称为 Q型聚类分析
对变量分类,称为 R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特
征的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的
变量聚集在一起,差异性大的变量分离开来,可在
相似变量中选择少数具有代表性的变量参与其他分
析,实现减少变量个数,达到变量降维的目的。
2011-10-16 12
cxt
? 2、聚类分析的方法,
系统聚类(层次聚类)
非系统聚类(非层次聚类)
? 系统聚类法包括,凝聚方式聚类,分解方式聚类
? 非系统聚类法包括:模糊聚类法,K- 均值法 (快
速聚类法)等等
2011-10-16 13
cxt
凝聚式
分解式
以系统聚类法为例
2011-10-16 14
cxt
3.2 相似性度量
? 1、样本或变量的 相似性 程度的数量指标,
( 1) 相似系数 性质越接近的变量或样品,它
们的相似系数越接近于 1或一 l,而彼此无关的变量
或样品它们的相似系数则越接近于 0,相似的为一
类,不相似的为不同类;
( 2) 距离 它是将每一个样品看作 p维空间的一
个点,并用某种度量方法测量点与点之间的距离,
距离较近的归为一类,距离较远的点应属于不同的
类。
? 样本分类( Q型聚类)常以 距离 刻画相似性
? 指标分类 (R型聚类 )常以 相似系数 刻画相似性
2011-10-16 15
cxt
? 距离和相似系数有着各种不同的定义,而这些定义
与变量类型有着非常密切的关系。
? 变量可分为 定性变量和定量变量。 若按测量尺度的
不同可以分为,
( 1)间隔尺度变量:变量用连续的量来表示,如长
度、重量、速度、温度等。
( 2)有序尺度变量:变量度量时不用明确的数量表示,
而是用等级来表示,如产品分为一等品、二等品、三
等品等有次序关系。
( 3)名义尺度变量:变量用 既没有 数量关系 也没有次
序关系,只有一些特性状态,如性别、职业、产品的
型号等。
2011-10-16 16
cxt
? 一、间隔尺度变量的相似性度量
? 1、距离
设有 n个样本单位,每个样本测有 p个指标
(变量),原始资料阵为,
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
npnn
p
p
xxx
xxx
xxx
X
?
????
?
?
21
22221
11211
2011-10-16 17
cxt
? 每个样本都可以看成 p维空间中的一点,n个
样本就是 p维空间中的 n个点。
? 第 i个样本与第 j个样本之间的距离记为
? 聚类过程中,相距较近的点归为一类,相距
较远的点归为不同的类。
ijd
2011-10-16 18
cxt
? 第 i个和第 j个样品之间的距离 如下 四个条件,
0;ijd i j? 对 一 切 的 和 成 立
0;ijd i j??当 且 仅 当 成 立;ij jid d i j? 对 一 切 的 和 成 立
.ij ik k jd d d i j?? 对 于 一 切 的 和 成 立
ijd
2011-10-16 19
cxt
? 常用距离,
( 1)、明考夫斯基距离 (Minkowski distance)
明氏距离有三种特殊形式,
( 1a),绝对距离( Block距离),当 q=1时
? ? ?? ?? pk jkikij xxd 11
gp
k
g
jkikij xxd
1
1
)||( ?
?
??
2011-10-16 20
cxt
( 1b)欧氏距离 (Euclidean distance):
当 q=2时
( 1c)切比雪夫距离,当 时
? ?
2
1
1
2)(2
?
?
?
?
?
? ?? ?
?
p
k
jkikij xxd
jkikpkij xxd ??? ??1m a x)(
q ??
2011-10-16 21
cxt
? 明考夫斯基距离主要有以下两个缺点,
① 明氏距离的值与各指标的量纲有关, 而各指标计量
单位的选择有一定的人为性和随意性, 各变量计量
单位的不同不仅使此距离的实际意义难以说清, 而
且, 任何一个变量计量单位的改变都会使此距离的
数值改变从而使该距离的数值依赖于各变量计量单
位的选择 。
② 明氏距离的定义没有考虑各个变量之间的相关性和
重要性 。 实际上, 明考夫斯基距离是把各个变量都
同等看待, 将两个样品在各个变量上的离差简单地
进行了综合 。
2011-10-16 22
cxt
? 当各变量的单位不同或测量值范围相差很大时,不应直
接采用明氏距离,而应先对各变量的数据作标准化处理,
然后用标准化后的数据计算距离。常用的标准化处理,
其中 为第 j个变量的样本均值;
为第 j个变量的样本方差。
* 1,2,,1,2,,i j j
ij
jj
xx
x i n j p
s
?
?
? ? ?LL
1
1 n
j ij
i
xxn?
?
? ?
2
1
1 ()
1
n
jj ij j
i
s x xn ?
?
??? ?
2011-10-16 23
cxt
如何避免明氏距离的缺点,
? ( 3) 兰氏距离
当 时,
? ? ?
? ?
?
?
p
k jkik
jkik
ij xx
xx
Ld
1
克服量纲的影响 未考虑指标间相关性的影响
0 ; 1,2,,; 1,2,,ijx i n j p??f L L
适用于变量之间互不相关的情形
这是一个自身标准化的量
2011-10-16 24
cxt
? ( 4)马氏距离
克服量纲的影响 克服指标间相 关性的影响
)()(2 ji1ji xxxx ????? ?ijd
1 / 2[ ( ) ( ) ]ijd ??? ? ? ?1i j i jx x x x
缺点,协方差
矩阵难以确定
2011-10-16 25
cxt
? 马氏距离与上述各种距离的主要不同就是马氏
距离考虑了观测变量之间的相关性。 如果假定
各变量之间相互独立,即观测变量的协方差矩
阵是对角矩阵,则马氏距离就退化为用各个观
测指标的标准差的倒数作为权数进行加权的欧
氏距离。 因此,马氏距离 不仅考虑 了观测变量
之间的相关性,而且也考虑 到了各个观测指标
取值的差异程度,为了对马氏距离和欧氏距离
进行一下比较,以便更清楚地看清二者的区别
和联系,现考虑一个例子。
2011-10-16 26
cxt
? 例 3.2 假设有一个二维正态总体,它的分布为
??
?
??
? ?
?
??
?
??
?
??
?
?
19.0
9.01,
0
0
2N ??
??
?
?
?
??? ?
19.0
9.01
19.0
11
两点。和设 )1,1()1,1( ??BA
05.1)( ?Md A ?
20)( ?Md B ?
2)( ?Ud A?
2)( ?Ud B?
2011-10-16 27
cxt
? 2、相似系数
相似系数(或其绝对值)越大,变量之间的相似性程
度越高;反之,越低。聚类时,比较相似的变量归为一
类,不太相似的变量归为不同的类。
变量 与 的相似系数用 表示,满足以下三个条件,
ix jx ij
c
1,,( 0 )i j i jc x a x b a b? ? ? ? ?当 且 仅 当 和 是 常 数 ;
1,ijc ? 对 一 切 i,j ;
,ij jicc? 对 一 切 i,j 。
2011-10-16 28
cxt
? ( 1)、相关系数
设 和
是第 和 个样品的观测值,则二者之间的相似
测度为,
? ??? ipii xxx,,,21 ?ix ),,,( 21 ?? jpjj xxx ?jx
i j
? ?
?
? ?
?
??
??
? p
k
p
k jjkiik
p
k jjkiik
ij
xxxx
xxxx
1 1
22
1
])(][)([
))((
?
2011-10-16 29
cxt
? ( 2)、夹角余弦 ( P62)
从向量集合的角度所定义的一种测度变量之
间亲疏程度的相似系数。设在 n维空间的向量
? ???
niiii xxx,,,21 ?x ? ?
??
njjjj xxx,,,21 ?x
? ?
?
? ?
???
n
k
n
k kjki
n
k kjki
ijij
xx
xx
c
1 1
22
1c o s ?
22 1 ijij Cd ??
2011-10-16 30
cxt
? 二、名义变量的相似性度量,
? 简单匹配系数( simple matching)
书 62页( 3.7)
2011-10-16 31
cxt
1x 2x
3x
4x
5x 6
x
名义变量的相似性度量:简单匹配系数( simple
matching)= 不配合的变量个数(配合与不配合变
量个数和)
例:某高校举办一个培训班,从学员的资料中得到 6个
变量:性别(),取值男和女;外语语种(),取
值为英、日、俄;专业(),取值为统计、会计、
金融;职业(),取值为教师和非教师;居住处
(),取值为校内和校外;学历(),取值本科和
本科以下。
2011-10-16 32
cxt
现有学员 i和学员 j,
i=(男,英,统计,非教师,校外,本科)
j=(女,英,金融,教师,校外,本科以下 )
二者的距离,
4
6ijd ?
不 匹 配 变 量 个 数 =
匹 配 与 不 匹 配 变 量 个 数 和
2011-10-16 33
cxt
? 三、定序变量的距离计算( Fisher算法) 80

2011-10-16 34
cxt
至此,我们可以根据所选择的距离构成样本点
间的距离表,样本点之间被连接起来。

0 …
0
┇ ┇ ┇ ┇
… 0
pGqG 1G 2G nG
1G
2G
nG
12d nd1
21d
1nd 2nd
nd2
2011-10-16 35
cxt
? 距离越近的样本归为一类;距离较远的样本
归为其他类。
问题:如何度量
样本、类之间的相似性度量
类与类之间相似性度量
2011-10-16 36
cxt
3.3 类和类的特征
? 1、类的定义
相似样本或指标的集合称为 类 。
(数学表达见 63-64页定义 3.1-3.4)
? 2、类的特征描述,
设类 G这一集合有 。 m为 G内的样本数。
其特征,
( 1)均值(或称为重心)
1,,mxxL
1
1 m
Gi
i
xxm?
?
? ?
2011-10-16 37
cxt
( 2)协方差矩阵
(3) G的直径
'
1
( ) ( )
m
G i G i G
i
s x x x x??
?
? ? ??
1
1GGsn?? ?
,m a xG iji j GDd??
2011-10-16 38
cxt
? 3、类与类之间的相似相似性度量
( 1)、最短距离( Nearest Neighbor)
x
21?
x12? x22?
x11? 13d
类 Gp与类 Gq之间的距离 Dpq (d(xi,xj)表示点 xi∈ G p和 xj ∈ G q之间的距离 )
m i n (,)p q i jD d x x?
2011-10-16 39
cxt
? 以当前某个样本与已经形成的小类中的各样本距离
中的最小值作为当前样本与该小类之间的距离。
例 1:为了研究辽宁省 5省区某年城镇居民生活消费的
分布规律,根据调查资料做类型划分
省份 x1 x2 x3 x4 x5 x6 x7 x8
辽宁
浙江
河南
甘肃
青海
7.90
7.68
9.42
9.16
10.06
39.77
50.37
27.93
27.98
28.64
8.49
11.35
8.20
9.01
10.52
12.94
13.30
8.14
9.32
10.05
19.27
19.25
16.17
15.99
16.18
11.05
14.59
9.42
9.10
8.39
2.04
2.75
1.55
1.82
1.96
13.29
14.87
9.76
11.35
10.81
2011-10-16 40
cxt
G1={辽宁 },G2={浙江 },G3={河南 },G4={甘肃 },G5={青海 }
采用欧氏距离,
d12 =[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-
19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2
d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0
2 11.67 0
3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
河南与甘肃的距离最近,先将二者
( 3和 4)合为一类 G6={G2,G4}
2011-10-16 41
cxt
d61=d(3,4)1=min{d13,d14}=13.12 d62=d(3,4)2=min{d23,d24}=24.06
d65=d(3,4)5=min{d35,d45}=2.21
6 1 2 5
6 0
D2= 1 13.12 0
2 24.06 11.67 0
5 2.21 12.80 23.54 0
d71=d(3,4,5)1=min{d13,d14,d15}=12.80
d72=d(3,4,5)2=min{d23,d24,d25}=23.54
7 1 2
D3= 7 0
1 12.80 0
2 23.54 11.67 0
河南、甘肃与青海并为一新类
G7={G6,G5}={G3,G4,G6}
G8={G1,G2}
2011-10-16 42
cxt
d78=min{d71,d72}=12.80
7 8
D4= 7 0
8 12.8 0
河南 3
甘肃 4
青海 5
辽宁 1
浙江 2
2011-10-16 43
cxt
( 2)最长距离( Furthest Neighbor )
?
?
?
x11?
x21?
?
? ?
12d
m a x (,)p q i jD d x x?
2011-10-16 44
cxt
? 以当前某个样本与已经形成的小类中的各样
本距离中的最大值作为当前样本与该小类之
间的距离。
例 2:对例 1的数据以最长距离法聚类。
2011-10-16 45
cxt
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54
d34=2.2 d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0
2 11.67 0
3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
d61=d(3,4)1=max{d13,d14}=13.80 d62=d(3,4)2=max{d23,d24}=24.63
d65=d(3,4)5=max{d35,d45}=3.51
6 1 2 5
6 0
D2= 1 13.80 0
2 24.63 11.67 0
5 3.51 12.80 23.54 0
河南与甘肃的距离最近,先将二者( 3和 4)
合为一类 G6={G2,G4}
河南、甘肃与青海并为一新类
G7={G6,G5}={G3,G4,G6}
2011-10-16 46
cxt
d71=d(3,4,5)1=max{d13,d14,d15}=13.80
d72=d(3,4,5)2=max{d23,d24,d25}=24.63
7 1 2
D3= 7 0
1 13.80 0
2 24.63 11.67 0
d78=max{d71,d72}=24.63
7 8
D4= 7 0
8 24.63 0
G8={G1,G2}
2011-10-16 47
cxt
( 3)组间平均连接( Between-group Linkage)
?
?
?
?
?
?
9
91 dd ?? ?
2011-10-16 48
cxt
? 为所有样本对间的平均距离。
? 利用了所有样本对距离的信息
2011-10-16 49
cxt
( 4)组内平均连接( Within-group Linkage)
1 2 3 4 5 6
6
d d d d d d? ? ? ? ?
?
? ?
?
2011-10-16 50
cxt
? 对所有样本对的距离求平均值,包括小类之间
的样本对、小类内的样本对,
2011-10-16 51
cxt
( 5) 重心法( Centroid clustering):均值点
的距离
? ? ? ?11,xy ? ?22,xy
2011-10-16 52
cxt
? 用两类的重心间的距离作为两类的距离
2222
lm
r
m
r
l
tm
r
m
tl
r
l
tr Dn
n
n
nD
n
nD
n
nD ?????
rml nnn ??
Gr
Gt
2011-10-16 53
cxt
( 6) 离差平方和法连接 (Ward’s method )
2,4
1,5
6,5
22( 2 3 ) ( 4 3 ) 2? ? ? ?
22(6 5, 5 ) ( 5 5, 5 ) 0, 5? ? ? ?
22( 1 3 ) ( 5 3 ) 8? ? ? ?
2011-10-16 54
cxt
红绿( 2,4,6,5) 8.75
离差平方和增加 8.75- 2.5= 6.25
黄绿( 6,5,1,5) 14.75
离差平方和增加 14.75- 8.5= 6.25
黄红( 2,4,1,5) 10- 10= 0
故按该方法的连接,黄红首先连接。
2011-10-16 55
cxt
? 先将 n个样本各成一类,然后每次缩小一类,
每缩小一类离差平方和就要增大,选择使离
差平方和 S增加最小的两类合并,直至所有
样本归为一类为止。
2222
lm
tr
t
tm
tr
mt
tl
tr
lt
tr Dnn
nD
nn
nnD
nn
nnD
???
??
?
??
2011-10-16 56
cxt
3.4 系统聚类法
? 系统聚类法 是一种其聚类过程可以用所谓的谱
系结构或树形结构来描绘的方法。 —— 事先不
用确定分多少类
? (一)凝聚式系统聚类法
1,所有的研究对象各自算作一类,将最, 靠近,
的首先聚类
2,再将这个类和其它类中最, 靠近, 的结合,
直至所有的对象都合并为一类为止
2011-10-16 57
cxt
例,16种饮料的热量、咖啡因、钠及价格四种变量
2011-10-16 58
cxt
SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2、把 calorie( 热量),caffeine( 咖啡因),sodium
( 钠),price( 价格)选入 Variables
3、若对样本聚类( Q型聚类):在 Cluster选 Cases;
若对变量聚类( R型聚类)则在 Cluster选 Variables
4、选 Plots,再点 Dendrogram,则 画出树状图; 若点
Icicle,则 画出冰挂图,其中 Orientation中 ( Vertical为纵向冰挂
图; Horizontal为横向冰挂图)。
……,,
2011-10-16 59
cxt
SPSS输出的树型图为,
2011-10-16 60
cxt
? 冰挂图,
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X
N u mb e r o f clu s t e r s
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
7
16
15
5 9 6 3
14
12
11
8
13
4 2
10
1
C a s e
2011-10-16 61
cxt
? 凝聚过程,
A g g l o m e r a t i o n S c h e d u l e
5 15 1 3, 1 3 0 0 0 7
4 13 2 5, 9 7 0 0 0 3
2 4 3 6, 4 8 5 0 2 8
6 9 6 9, 1 3 0 0 0 10
1 10 1 0 2, 6 3 0 0 0 15
8 11 1 5 0, 3 3 0 0 0 8
5 16 1 9 8, 3 7 5 1 0 11
2 8 3 1 9, 7 7 8 3 6 12
12 14 3 2 2, 5 4 0 0 0 12
3 6 4 5 8, 7 9 5 0 4 13
5 7 1 0 0 6,8 6 3 7 0 13
2 12 1 4 3 5,0 7 6 8 9 14
3 5 1 7 5 5,6 5 4 10 11 14
2 3 6 2 8 7,1 7 5 12 13 15
1 2 1 9 4 0 6, 6 8 4 5 14 0
S t a g e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C lu s t e r 1 C lu s t e r 2
C lu s t e r C o mb in e d
C o e f f ic ie n t s C lu s t e r 1 C lu s t e r 2
S t a g e C l u s t e r F ir s t
A p p e a r s
N e x t S t a g e
2011-10-16 62
cxt
例,依据 啤酒成分和价格数据,对啤酒进行分类,
啤酒名 热量 钠含量 酒精 价格
Budweiser 144.00 19.00 4.70,43
Schlitz 181.00 19.00 4.90,43
Ionenbrau 157.00 15.00 4.90,48
Kronensourc 170.00 7.00 5.20,73
Heineken 152.00 11.00 5.00,77
Old-milnaukee 145.00 23.00 4.60,26
Aucsberger 175.00 24.00 5.50,40
Strchs-bohemi 149.00 27.00 4.70,42
Miller-lite 99.00 10.00 4.30,43
Sudeiser-lich 113.00 6.00 3.70,44
Coors 140.00 16.00 4.60,44
Coorslicht 102.00 15.00 4.10,46
Michelos-lich 135.00 11.00 4.20,50
Secrs 150.00 19.00 4.70,76
Kkirin 149.00 6.00 5.00,79
Pabst-extra-l 68.00 15.00 2.30,36
Hamms 136.00 19.00 4.40,43
Heilemans-old 144.00 24.00 4.90,43
Olympia-gold- 72.00 6.00 2.90,46
Schlite-light 97.00 7.00 4.20,47
2011-10-16 63
cxt
SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2,Variables:啤酒名、热量、钠含量、酒精、价格等。
3,Statistics,(Statistics)(Agglomeration Schedule凝聚状
态表 ),(Proximity matrix),Cluster membership( Single
solution,[4] 表示分为 4类)
4,Method,Cluster (Furthest Neighbor),Measure-Interval
(Squared Euclidean distance),Transform Value (Range 0-
1/By variable (值 -最小值 )/极差 )
5,Plots,(Dendrogram) Icicle(Specified range of cluster,
Start-1,Stop-4,by-1),Orientation (Vertical)
6,Save,Cluster Membership(Single solution [4])
2011-10-16 64
cxt
下表 (Proximity matrix)中行列交叉点为两种啤酒之间各
变量的欧氏距离平方和,
P r o x i m i t y M a t r i x
,0 0 0, 1 1 1, 0 6 2, 7 2 4, 5 7 0, 1 4 0, 1 9 8, 1 4 7, 3 5 8, 5 5 6, 0 2 3, 2 1 3, 1 9 3, 3 9 1, 8 5 5 1, 0 6 9, 0 1 4, 0 6 1 1, 1 0 9, 5 3 0
,1 1 1, 0 0 0, 0 9 0, 6 6 5, 6 2 3, 2 4 9, 0 9 8, 2 3 0, 7 4 5, 8 8 6, 1 6 1, 5 9 1, 3 7 6, 4 6 7, 9 2 6 1, 7 1 4, 1 8 3, 1 6 4 1, 7 0 8, 9 3 3
,0 6 2, 0 9 0, 0 0 0, 3 9 0, 3 3 9, 3 3 7, 2 6 7, 3 4 8, 3 6 4, 4 8 2, 0 3 9, 3 0 1, 1 2 3, 3 2 3, 5 3 2 1, 3 3 2, 1 0 4, 2 0 6 1, 1 4 2, 4 7 5
,7 2 4, 6 6 5, 3 9 0, 0 0 0, 0 7 1 1, 4 5 1 1, 0 5 4 1, 3 0 8, 8 1 5, 7 7 6, 5 8 9, 8 8 5, 4 1 8, 3 8 5, 0 5 4 2, 2 6 9, 8 0 0 1, 0 3 7 1, 5 3 1, 7 5 6
,5 7 0, 6 2 3, 3 3 9, 0 7 1, 0 0 0 1, 2 7 2, 9 3 6 1, 0 2 6, 6 8 2, 7 2 9, 4 7 1, 6 5 3, 3 4 5, 1 5 5, 0 5 9 1, 8 9 9, 6 1 2, 8 0 1 1, 3 3 1, 6 5 6
,1 4 0, 2 4 9, 3 3 7 1, 4 5 1 1, 2 7 2, 0 0 0, 2 2 2, 1 3 0, 6 6 1, 9 3 0, 2 2 8, 4 5 7, 5 5 5, 9 2 9 1, 6 7 2 1, 1 6 2, 1 4 9, 1 1 4 1, 4 9 7, 9 3 4
,1 9 8, 0 9 8, 2 6 7 1, 0 5 4, 9 3 6, 2 2 2, 0 0 0, 1 3 7 1, 0 4 1 1, 3 5 8, 3 2 6, 8 0 5, 7 0 9, 6 3 0 1, 3 5 4 2, 0 8 6, 2 9 7, 1 1 4 2, 2 3 9 1, 3 1 4
,1 4 7, 2 3 0, 3 4 8 1, 3 0 8 1, 0 2 6, 1 3 0, 1 3 7, 0 0 0, 8 6 7 1, 2 0 1, 2 8 3, 5 4 0, 6 4 3, 5 5 7 1, 4 9 6 1, 4 1 6, 1 6 8, 0 2 7 1, 7 8 6 1, 1 5 2
,3 5 8, 7 4 5, 3 6 4, 8 1 5, 6 8 2, 6 6 1 1, 0 4 1, 8 6 7, 0 0 0, 0 8 7, 2 2 2, 0 6 5, 1 2 2, 7 9 1, 7 4 1, 5 4 0, 2 9 2, 6 3 8, 2 8 8, 0 2 7
,5 5 6, 8 8 6, 4 8 2, 7 7 6, 7 2 9, 9 3 0 1, 3 5 8 1, 2 0 1, 0 8 7, 0 0 0, 3 6 3, 2 1 0, 1 3 2, 9 5 3, 7 0 3, 5 5 6, 4 7 3, 9 5 1, 1 9 6, 0 5 0
,0 2 3, 1 6 1, 0 3 9, 5 8 9, 4 7 1, 2 2 8, 3 2 6, 2 8 3, 2 2 2, 3 6 3, 0 0 0, 1 4 1, 0 8 7, 3 9 4, 6 8 5, 9 4 8, 0 2 6, 1 5 6, 8 7 3, 3 4 7
,2 1 3, 5 9 1, 3 0 1, 8 8 5, 6 5 3, 4 5 7, 8 0 5, 5 4 0, 0 6 5, 2 1 0, 1 4 1, 0 0 0, 1 2 8, 5 7 2, 8 2 3, 4 4 3, 1 3 9, 3 8 8, 3 9 5, 1 4 8
,1 9 3, 3 7 6, 1 2 3, 4 1 8, 3 4 5, 5 5 5, 7 0 9, 6 4 3, 1 2 2, 1 3 2, 0 8 7, 1 2 8, 0 0 0, 4 2 8, 4 3 4, 8 1 0, 1 6 7, 4 5 5, 5 3 8, 1 5 3
,3 9 1, 4 6 7, 3 2 3, 3 8 5, 1 5 5, 9 2 9, 6 3 0, 5 5 7, 7 9 1, 9 5 3, 3 9 4, 5 7 2, 4 2 8, 0 0 0, 3 9 5 1, 6 9 5, 4 1 2, 4 5 1 1, 4 9 6, 8 7 0
,8 5 5, 9 2 6, 5 3 2, 0 5 4, 0 5 9 1, 6 7 2 1, 3 5 4 1, 4 9 6, 7 4 1, 7 0 3, 6 8 5, 8 2 3, 4 3 4, 3 9 5, 0 0 0 2, 0 6 8, 8 9 3 1, 1 9 9 1, 2 8 3, 6 4 1
1, 0 6 9 1, 7 1 4 1, 3 3 2 2, 2 6 9 1, 8 9 9 1, 1 6 2 2, 0 8 6 1, 4 1 6, 5 4 0, 5 5 6, 9 4 8, 4 4 3, 8 1 0 1, 6 9 5 2, 0 6 8, 0 0 0, 8 4 7 1, 3 1 4, 2 5 6, 6 0 7
,0 1 4, 1 8 3, 1 0 4, 8 0 0, 6 1 2, 1 4 9, 2 9 7, 1 6 8, 2 9 2, 4 7 3, 0 2 6, 1 3 9, 1 6 7, 4 1 2, 8 9 3, 8 4 7, 0 0 0, 0 8 6, 9 2 7, 4 5 5
,0 6 1, 1 6 4, 2 0 6 1, 0 3 7, 8 0 1, 1 1 4, 1 1 4, 0 2 7, 6 3 8, 9 5 1, 1 5 6, 3 8 8, 4 5 5, 4 5 1 1, 1 9 9 1, 3 1 4, 0 8 6, 0 0 0 1, 5 3 5, 8 8 2
1, 1 0 9 1, 7 0 8 1, 1 4 2 1, 5 3 1 1, 3 3 1 1, 4 9 7 2, 2 3 9 1, 7 8 6, 2 8 8, 1 9 6, 8 7 3, 3 9 5, 5 3 8 1, 4 9 6 1, 2 8 3, 2 5 6, 9 2 7 1, 5 3 5, 0 0 0, 2 1 7
,5 3 0, 9 3 3, 4 7 5, 7 5 6, 6 5 6, 9 3 4 1, 3 1 4 1, 1 5 2, 0 2 7, 0 5 0, 3 4 7, 1 4 8, 1 5 3, 8 7 0, 6 4 1, 6 0 7, 4 5 5, 8 8 2, 2 1 7, 0 0 0
C a s e
1, B u d w e i s e r
2, S c h l i t z
3, I o n e n b r a u
4, K r o n e n s o u r c
5, H e i n e k e n
6, O l d - m i l n a u k e e
7, A u c s b e r g e r
8, S t r c h s - b o h e m i
9, M i l l e r - l i t e
1 0, S u d e i s e r - l i c h
1 1, C o o r s
1 2, C o o r s l i c h t
1 3, M i c h e l o s - l i c h
1 4, S e c r s
1 5, K k i r i n
1 6, P a b s t - e x t r a - l
1 7, H a m m s
1 8, H e i l e m a n s - o l d
1 9, O l y m p i a - g o l d -
2 0, S c h l i t e - l i g h t
1, B u d w e i s e r 2, S c h l i t z 3, I o n e n b r a u
4:
K r o n e n s o u r c 5, H e i n e k e n
6:
O l d - m i l n a u k e e 7, A u c s b e r g e r
8:
S t r c h s - b o h e m i
9:
M i l l e r - l i t e
1 0,
S u d e i s e r - l i c h 1 1, C o o r s
1 2,
C o o r s l i c h t
1 3,
M i c h e l o s - l i c h 1 4, S e c r s 1 5, K k i r i n
1 6,
P a b s t - e x t r a - l 1 7, H a m m s
1 8,
H e i l e m a n s - o l d
1 9,
O l y m p i a - g o l d -
2 0,
S c h l i t e - l i g h t
S q u a r e d E u c l i d e a n D i s t a n c e
T h i s i s a d i s s i m i l a r i t y m a t r i x
2011-10-16 65
cxt
凝聚过程,
A g g l o m e r a t i o n S c h e d u l e
1 17, 0 1 4 0 0 2
1 11, 0 2 6 1 0 11
8 18, 0 2 7 0 0 10
9 20, 0 2 7 0 0 7
4 15, 0 5 4 0 0 6
4 5, 0 7 1 5 0 16
9 10, 0 8 7 4 0 12
2 3, 0 9 0 0 0 11
12 13, 1 2 8 0 0 12
6 8, 1 3 0 0 3 13
1 2, 1 8 3 2 8 15
9 12, 2 1 0 7 9 17
6 7, 2 2 2 10 0 15
16 19, 2 5 6 0 0 17
1 6, 3 4 8 11 13 18
4 14, 3 9 5 6 0 18
9 16, 8 1 0 12 14 19
1 4 1, 6 7 2 15 16 19
1 9 2, 2 6 9 18 17 0
S t a g e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
C l u s t e r 1 C l u s t e r 2
C l u s t e r C o m b i n e d
C o e f f i c i e n t s C l u s t e r 1 C l u s t e r 2
S t a g e C l u s t e r F i r s t
A p p e a r s
N e x t S t a g e
2011-10-16 66
cxt
分为四类的聚类结果,
C l u s t e r M e m b e r s h i p
1
1
1
2
2
1
1
1
3
3
1
3
3
2
2
4
1
1
4
3
C a s e
1, B u d w e i s e r
2, S c h l i t z
3, I o n e n b r a u
4, K r o n e n s o u r c
5, H e i n e k e n
6, O l d - m i l n a u k e e
7, A u c s b e r g e r
8, S t r c h s - b o h e m i
9, M i l l e r - l i t e
1 0, S u d e i s e r - l i c h
1 1, C o o r s
1 2, C o o r s l i c h t
1 3, M i c h e l o s - l i c h
1 4, S e c r s
1 5, K k i r i n
1 6, P a b s t - e x t r a - l
1 7, H a m m s
1 8, H e i l e m a n s - o l d
1 9, O l y m p i a - g o l d -
2 0, S c h l i t e - l i g h t
4 C l u s t e r s
2011-10-16 67
cxt
冰柱图 (icicle),
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
N u m b e r o f c l u s t e r s
1
2
3
4
1
9
:
O
l
y
m
p
i
a
-
g
o
l
d
-
1
6
:
P
a
b
s
t
-
e
x
t
r
a
-
l
1
3
:
M
i
c
h
e
l
o
s
-
l
i
c
h
1
2
:
C
o
o
r
s
l
i
c
h
t
1
0
:
S
u
d
e
i
s
e
r
-
l
i
c
h
2
0
:
S
c
h
l
i
t
e
-
l
i
g
h
t
9
:
M
i
l
l
e
r
-
l
i
t
e
1
4
:
S
e
c
r
s
5
:
H
e
i
n
e
k
e
n
1
5
:
K
k
i
r
i
n
4
:
K
r
o
n
e
n
s
o
u
r
c
7
:
A
u
c
s
b
e
r
g
e
r
1
8
:
H
e
i
l
e
m
a
n
s
-
o
l
d
8
:
S
t
r
c
h
s
-
b
o
h
e
m
i
6
:
O
l
d
-
m
i
l
n
a
u
k
e
e
3
:
I
o
n
e
n
b
r
a
u
2
:
S
c
h
l
i
t
z
1
1
:
C
o
o
r
s
1
7
:
H
a
m
m
s
1
:
B
u
d
w
e
i
s
e
r
C a s e
2011-10-16 68
cxt
聚类树型图
2011-10-16 69
cxt
例,学生测验数据,50个学生,X1-X10个测验项目要对这 10个变量 进
行变量聚类( R 型聚类)
过程和 Q型聚类(样本聚类,对 cases)一样
SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2,Variables,x1-x10
3,Statistics,(Statistics) (Proximity matrix),
Cluster membership ( Single solution [2] 表示分为 2类 )
4,Method,Cluster (Furthest Neighbor),Measure-
Interval (Pearson correlation,用 Pearson相关系数 )
5,Plots,Icicle(All Cluster)
2011-10-16 70
cxt
P r o x i m i t y M a t r i x
,0 0 0, 1 3 3, 2 9 0, 0 9 9, 3 3 1, 1 9 8, 4 4 9, 3 2 3, 3 2 0, 1 1 2
,1 3 3, 0 0 0, 0 2 6, 4 1 1, 2 0 1, 3 2 8, 1 3 4, 1 9 9, 2 6 8, 2 7 1
,2 9 0, 0 2 6, 0 0 0, 1 5 1, 2 7 4, 4 0 6, 4 4 3, 5 0 9, 5 9 8, 3 1 8
,0 9 9, 4 1 1, 1 5 1, 0 0 0, 0 7 2, 2 8 2, 1 4 5, 4 0 1, 3 2 4, 4 0 7
,3 3 1, 2 0 1, 2 7 4, 0 7 2, 0 0 0, 3 1 7, 1 9 1, 0 6 3, 3 5 6, 0 8 4
,1 9 8, 3 2 8, 4 0 6, 2 8 2, 3 1 7, 0 0 0, 3 7 0, 3 1 2, 3 0 6, 2 9 6
,4 4 9, 1 3 4, 4 4 3, 1 4 5, 1 9 1, 3 7 0, 0 0 0, 3 3 7, 3 1 3, 2 4 6
,3 2 3, 1 9 9, 5 0 9, 4 0 1, 0 6 3, 3 1 2, 3 3 7, 0 0 0, 6 1 1, 5 8 4
,3 2 0, 2 6 8, 5 9 8, 3 2 4, 3 5 6, 3 0 6, 3 1 3, 6 1 1, 0 0 0, 3 2 5
,1 1 2, 2 7 1, 3 1 8, 4 0 7, 0 8 4, 2 9 6, 2 4 6, 5 8 4, 3 2 5, 0 0 0
C a s e
X1
X2
X3
X4
X5
X6
X7
X8
X9
X 1 0
X1 X2 X3 X4 X5 X6 X7 X8 X9 X 1 0
M a t r i x F i l e I n p u t
2011-10-16 71
cxt
? 分为两类的聚类结果,
C l u s t e r M e m b e r s h i p
1
1
2
1
1
1
1
2
2
2
C a s e
X1
X2
X3
X4
X5
X6
X7
X8
X9
X 1 0
2 C l u s t e r s
2011-10-16 72
cxt
冰柱图 (icicle),
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X
N u m b e r o f c l u s t e r s
1
2
3
4
5
6
7
8
9
X
1
0
X9
X8
X3
X4
X2
X6
X5
X7
X1
C a s e
2011-10-16 73
cxt
? (二)聚类个数的确定 (书 74页)
碎石图,X轴表示分类数; y轴表示聚合系数
2011-10-16 74
cxt
? 黛米尔曼( Demirmen,1972)提出依据树状结构图分类的准则,
2011-10-16 75
cxt
? (三)聚类个数及解释
2011-10-16 76
cxt
3.5 非系统聚类法
? 也叫做逐步聚类法、动态聚类法,k-均值聚类
法、或快速聚类法。 —— 事先要确定分多少类
2011-10-16 77
cxt
? 假定你说分 3类, 这个方法还进一步要求你事先确定 3个点为
,聚类种子, (SPSS软件自动为你选种子 );也就是说, 把这
3个点作为三类中每一类的基石 。
? 然后, 根据和这三个点的距离远近, 把所有点分成三类 。 再
把这三类的中心 ( 均值 ) 作为新的基石或种子 ( 原来的, 种
子, 就没用了 ), 重新按照距离分类 。
? 如此叠代下去, 直到达到停止叠代的要求 ( 比如, 各类最后
变化不大了, 或者叠代次数太多了 ) 。 显然, 前面的聚类种
子的选择并不必太认真, 它们很可能最后还会分到同一类中
呢 。 下面用饮料例的数据来做 k-均值聚类 。
2011-10-16 78
cxt
? 例,假定要把例 1中 16种饮料分成 3类。
F i n a l C l u s t e r C e n t e r s
2 0 3, 1 0 3 3, 7 1 1 0 7, 3 4
1, 6 5 4, 1 6 3, 4 9
1 3, 0 5 1 0, 0 6 8, 7 6
3, 1 5 2, 6 9 2, 9 4
C A L O R I E
C A F F E I N E
S O D I U M
P R I C E
1 2 3
C l u s t e r
N u m b e r o f C a s e s i n e a c h C l u s t e r
2, 0 0 0
7, 0 0 0
7, 0 0 0
1 6, 0 0 0
,0 0 0
1
2
3
C l u s t e r
V a l i d
M i s s i n g
2011-10-16 79
cxt
根据需要,可以输出哪些点分在一起。结果是,
第一类为饮料 1,10;
第二类为饮料 2,4,8,11,12,13,14;
第三类为剩下的饮料 3,5,6,7,9,15,16。
2011-10-16 80
cxt
K-均值聚类 SPSS处理,
1,Analyze- Classify- K-Menas Cluster
2,Variables,calorie( 热量),caffeine( 咖啡因)、
sodium( 钠),price( 价格)
3,Number of Clusters处选择 3(想要分的类数)
4,如果想要知道哪种饮料分到哪类,则选 Save,再选 Cluster
Membership等
注意,
k-均值聚类只能做 Q型聚类,如要做 R型聚类,需要把数
据阵进行转置。
2011-10-16 81
cxt
聚类分析步骤,
确定待研究的问题
选择聚类用的距离或相似系数
选择聚类方法
确定类别的个数
评估聚类分析的效果
解释聚类分析的结果
1.先确定待研究的问题
和待分类的对象
1.所选的方法与所选的
距离是有关的
2.小样本与大样本
3.两者的串联使用
1.聚类时多采用距
离统计量
2.变量聚类时多采
用相似系数统计量
3.不同度量单位的
影响
透过比较各类别的中心,
来识别各个类别的意义,
从而给各个类别命名
1.相关的理论或实践上的
需要
2.系统聚类法
3.非系统聚类法