zf
Chapter 9 Cluster analysis
2011-10-16 2
cxt
Presentation Outline(本章要点)
? What is cluster analysis?
? Similarities measures
? Hierarchical cluster analysis
– Centroid method
– Single linkage
– Complete linkage
– Average linkage
– Ward’s method
– Number of clusters
? Non-hierarchical cluster analysis
2011-10-16 3
cxt
一,什么是 聚类分析 What is cluster
analysis?
? 1,definition( 定义)
Cluster analysis is a technique used for combining
observations into groups or clusters such that,
( 1) Each group or cluster is homogeneous or
compact with respect to certain characteristics,That is,
observations in each group are similar to each other,
( 2) Each group should be different from other
groups with respect to the same characteristics; that
is,observations of one group should be different from
the observations of other groups,
2011-10-16 4
cxt
? 聚类分析
是根据, 物以类聚, 的道理,对样品或指标
进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之
间的相似性比与其他类的对象的相似性更强。
? 聚类分析的目的
使 类内 对象的同质性最大化和 类间 对象
的异质性最大化。
2011-10-16 5
cxt
? 聚类分析的 基本思想,
是根据一批样品的多个观测指标,具体地找出
一些能够度量样品或指标之间相似程度的统计
量,然后利用统计量将样品或指标进行归类。
把相似的样品或指标归为一类,把不相似的
归为其他类。直到把所有的样品(或指标)
聚合完毕,
? 相似样本或指标的集合称为 类 。
2011-10-16 6
cxt
? 2,Applications( 应用)
经济领域的应用如,
例 1,One goal of marketing managers is to identify
similar consumer segments so that marketing
programs can be developed and tailored to each
segment,For example,they might group
customers by their lifestyles,The result could be
one group that likes outdoor activities,another
that enjoys entertainment and a third that likes
cooking and gardening,Each segment may have
distinct product needs and may respond
differently to advertising approaches
2011-10-16 7
cxt
市场部经理可以依据消费者生活模式进行分
类,分为:喜欢户外活动的消费者
喜欢娱乐活动的消费者
喜欢烹饪和园艺的消费者
不同的群体对产品需求可能有所不同,对产
品广告反映也可能会有所不同。
市场部经理可针对不同的消费者群体制定
不同的推销策略。
2011-10-16 8
cxt
? 例 2、谁经常光顾商店,谁买什么东西,买
多少?
? 按忠诚卡记录的光临次数、光临时间、性别、
年龄、职业、购物种类、金额等变量分类
? 这样商店可以 …,
? 识别顾客购买模式(如喜欢一大早来买酸奶和
鲜肉,习惯周末时一次性大采购)
? 刻画不同的客户群的特征(用变量来刻画,就
象刻画猫和狗的特征一样)
2011-10-16 9
cxt
? 为什么这样分类?(分类的好处)
? 因为每一个类别里面的人消费方式都不一样,
需要针对不同的人群,制定不同的关系管理方
式,以提高客户对公司商业活动的参与率。
? 挖掘有价值的客户,并制定相应的促销策略,
如,对经常购买酸奶的客户
对累计消费达到 12个月的老客户
? 针对潜在客户派发广告,比在大街上乱发传单
命中率更高,成本更低!
2011-10-16 10
cxt
? 例 3、谁是银行信用卡的黄金客户?
? 利用储蓄额、刷卡消费金额、诚信度等变量对
客户分类,找出, 黄金客户, !
? 这样银行可以 ……
? 制定更吸引的服务,留住客户!比如,
? 一定额度和期限的免息透资服务!
? 百盛的贵宾打折卡!
? 在他或她生日的时候送上一个小蛋糕!
2011-10-16 11
cxt
? 在社会学中的应用
All scientific fields have the need to cluster
or group similar objects,Botanists group
plants,historians groups events,and
chemists group elements and phenomena,
2011-10-16 12
cxt
3,Steps in Cluster Analysis( 分析步骤)
? Select the observations to be clustered
? Select variables to use
? Decide if variables should be standardized
? Select a measure of similarity
? Decide on the type of clustering technique(hierarchical
or nonhierarchical)
? Select the type of clustering method for the selected
technique (e.g.Ward’s method in hierarchical
clustering technique)
? Decide on the number of clusters
? Interpret the cluster solution
2011-10-16 13
cxt
确定待研究的问题
选择聚类用的距离或相似系数
选择聚类方法
确定类别的个数
评估聚类分析的效果
解释聚类分析的结果
1.先确定待研究的问题
和待分类的对象
1.聚类时多采用距
离统计量
2.变量聚类时多采
用相似系数统计量
3.不同度量单位的
影响
1.所选的方法与所选的
距离是有关的
2.小样本与大样本
3.两者的串联使用
1.相关的理论或实践上的
需要
2.系统聚类法
3.非系统聚类法 透过比较各类别的中心,
来识别各个类别的意义,
从而给各个类别命名
2011-10-16 14
cxt
4,Geometric View of Cluster Analysis
? 例,依据收入与受教育程度(年度) 对 6个样本
进行分组。
2011-10-16 15
cxt
2011-10-16 16
cxt
二、相似性度量 ( Similarity Measure)
? Distance measures (for metric variables)
Euclidean Distance measures
Minkowski metric
Mahalanobis distance
? Similarity coefficients
Correlation coefficients
2011-10-16 17
cxt
? 样本或变量的 相似性 程度的数量指标,
( 1) 相似系数 性质越接近的变量或样品,它
们的相似系数越接近于 1或一 l,而彼此无关的变量
或样品它们的相似系数则越接近于 0,相似的为一
类,不相似的为不同类;
( 2) 距离 它是将每一个样品看作 p维空间的一
个点,并用某种度量方法测量点与点之间的距离,
距离较近的归为一类,距离较远的点应属于不同的
类。
? 样本分类( Q型聚类)常以 距离 刻画相似性
? 指标分类 (R型聚类 )常以 相似系数 刻画相似性
2011-10-16 18
cxt
? 1,Distance
设有 n个样本单位,每个样本测有 p个指标(变
量),原始资料阵为,
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
npnn
p
p
xxx
xxx
xxx
X
?
????
?
?
21
22221
11211
2011-10-16 19
cxt
? 每个样本都可以看成 p维空间中的一点,n个
样本就是 p维空间中的 n个点。
? 第 i个样本与第 j个样本之间的距离记为
? 聚类过程中,相距较近的点归为一类,相距
较远的点归为不同的类。
ijd
2011-10-16 20
cxt
? 第 i个和第 j个样品之间的距离 如下 四个条件,
0;ijd i j? 对 一 切 的 和 成 立
0;ijd i j??当 且 仅 当 成 立;i j j id d i j? 对 一 切 的 和 成 立
.i j i k k jd d d i j?? 对 于 一 切 的 和 成 立
2011-10-16 21
cxt
( 1) Euclidean Distance Measures( 欧氏距离)
Euclidean distance is the most
commonly used measure
Euclidean distance between
observations and
2011-10-16 22
cxt
? Since the square root operation does not
change the order of how close the
observations are to each other,some
programs use squared Euclidean distance
(i.e.,they do not take the square root),
2 2 2 2 2
1 1 2 2
1
( ) ( ) ( ) ( )
p
i j i k j k i j i j i p j p
k
d x x x x x x x x
?
? ? ? ? ? ? ? ? ?? L
2011-10-16 23
cxt
( 2) Minkowski Metric( 明考夫斯基距离)
? When m = 1,the measure
called the ―city-block‖ or Manhattan
distance between two points in p
dimensions.( 绝对距离)
? When m = 2,becomes the
Euclidean distance.( 欧氏距离)
2011-10-16 24
cxt
? 明氏距离、欧氏距离以及绝对距离 主要有以下两个
缺点,
① 距离的值与各指标的量纲有关 。 各指标计量单位的
选择有一定的人为性和随意性, 任何一个变量计量
单位的改变都会使此距离的数值改变, 从而使该距
离的数值依赖于各变量计量单位的选择 。
② 距离的定义没有考虑各个变量之间的相关性和重要
性 。 他们把各个变量都同等看待, 将两个样品在各
个变量上的离差简单地进行了综合 。
2011-10-16 25
cxt
? 例, 横轴 代表重量(单位,kg),纵轴 代表长
度(单位,cm)。 有四个点 A,B,C,D,见图。
C
D
A
B
10
5
5 101
1x
2x
2x1x
225 1 0 1 2 5AB ? ? ?
221 0 1 1 0 1CD ? ? ?
2011-10-16 26
cxt
21x m m x若 用 作 单 位, 单 位 不 变, 则 A 坐 标 为 ( 0, 50 ),
C 坐 标 为 ( 0, 100 )
225 0 1 0 2 6 0 0AB ? ? ?
221 0 0 1 1 0 0 0 1CD ? ? ?
2011-10-16 27
cxt
? 当各变量的单位不同或测量值范围相差很大时,不应直
接采用明氏距离、欧氏距离和绝对距离, 而应先对各变
量的数据作标准化处理,然后用标准化后的数据计算距
离。常用的标准化处理,
其中 为第 j个变量的样本均值;
为第 j个变量的样本方差。
* 1,2,,1,2,,i j j
ij
jj
xx
x i n j p
s
?
?
? ? ?LL
1
1 n
j ij
i
xxn?
?
? ?
2
1
1 ()
1
n
j j i j j
i
s x xn ?
?
??? ?
2011-10-16 28
cxt
( 3 ) Mahalanobis Distance( 马氏距离)
? Mahalanobis distance compensates for the
intercorrelation among the variables,
? 优点:克服量纲的影响、克服指标间相关性的影响
? 缺点,协方差矩阵难以确定
1( ) ( )i j pds ??? ? ?i j i jx x x x
2011-10-16 29
cxt
有两个正态总体 和,设有一个样
本,其值在 A处,点 A距离哪个总体近些(样本来自哪个总
体)?
1? 2?
1? 2?
A
21 1 1,(,)GN ?? 22 2 2,(,)GN ??
2011-10-16 30
cxt
? 例,Similarity Matrix containing
Euclidean Distances
2011-10-16 31
cxt
2011-10-16 32
cxt
? 2,Similarity coefficients相似系数
相似系数(或其绝对值)越大,变量之间的相似性程
度越高;反之,越低。聚类时,比较相似的变量归为一
类,不太相似的变量归为不同的类。
变量 与 的相似系数用 表示,满足以下三个条件,ix jx ijc
1,,( 0 )i j i jc x a x b a b? ? ? ? ?当 且 仅 当 和 是 常 数 ;
1,ijc ? 对 一 切 i,j ;
,i j j icc? 对 一 切 i,j 。
2011-10-16 33
cxt
? ( 1)、相关系数
设 和
是第 和 个样品的观测值,则二者之间的相似
测度为,
? ??? ipii xxx,,,21 ?ix ),,,( 21 ?? jpjj xxx ?jx
i j
? ?
?
? ?
?
??
??
? p
k
p
k jjkiik
p
k jjkiik
ij
xxxx
xxxx
1 1
22
1
])(][)([
))((
?
2011-10-16 34
cxt
? ( 2)夹角余弦
? ?
?
? ?
???
n
k
n
k kjki
n
k kjki
ijij
xx
xx
c
1 1
22
1c o s ?
22 1 ijij Cd ??
2011-10-16 35
cxt
名义变量的相似性度量:简单匹配系数( simple
matching)= 不配合的变量个数(配合与不配合变量
个数和)
例:某高校举办一个培训班,从学员的资料中得到 6个
变量:性别(),取值男和女;外语语种(),取
值为英、日、俄;专业(),取值为统计、会计、
金融;职业(),取值为教师和非教师;居住处
(),取值为校内和校外;学历(),取值本科和
本科以下。
1x 2x
3x
4x
5x 6
x
2011-10-16 36
cxt
现有学员 i和学员 j,
i=(男,英,统计,非教师,校外,本科)
j=(女,英,金融,教师,校外,本科以下 )
二者的距离,
4
6ijd ?
不 匹 配 变 量 个 数 =
匹 配 与 不 匹 配 变 量 个 数 和
2011-10-16 37
cxt
…
0 …
0
┇ ┇ ┇ ┇
… 0
pGqG 1G 2G nG
1G
2G
nG
12d nd1
21d
1nd 2nd
nd2
2011-10-16 38
cxt
三、聚类方法( Clustering Methods)
? 聚类分析依据聚类对象可分为两种类型,
对样本分类,称为 Q型聚类分析
对变量分类,称为 R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特征
的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的变
量聚集在一起,差异性大的变量分离开来,可在相似
变量中选择少数具有代表性的变量参与其他分析,实
现减少变量个数,达到变量降维的目的。
2011-10-16 39
cxt
? There are two types of clustering methods( 聚类方
法),
Hierarchical and non- hierarchical
系统聚类(层次聚类)和非系统聚类(非层次聚类)
? Hierarchical系统聚类(层次聚类) has two
approaches,
Agglomerative hierarchical methods( 凝聚方式聚类) start
with the individual objects,group the most similar objects first,
and eventually all subgroups/objects are fused into a single
cluster,
Divisive hierarchical methods ( 分解方式聚类) start with
an initial single cluster which contains all the objects,then divide
the objects into dissimilar subgroups until each object forms a
group,
2011-10-16 40
cxt
? 聚类分析的方法,
系统聚类(层次聚类)
非系统聚类(非层次聚类)
? 系统聚类法包括,凝聚方式聚类,分解方式
聚类
? 非系统聚类法包括,K- 均值法 (快速聚类
法)等
2011-10-16 41
cxt
? Agglomerative versus Divisive Hierarchical
Methods
2011-10-16 42
cxt
四、系统聚类 (又称‘层次聚类’)
Hierarchical Clustering
(一)类与类之间距离测量方法,
? Centroid method( 重心法)
? Single-linkage method (nearest-neighbor)( 最近距离法)
– groups the objects according to the distance between their
nearest members
? Complete linkage method (farthest-neighbor)( 最远距离法)
– groups the objects according to the distance between their
farthest members
? Average linkage method( 平均距离法,组间、组内)
– uses the average distance between pairs of members in the
respective sets
? Ward’s method( 离差平方和法)
2011-10-16 43
cxt
2011-10-16 44
cxt
( 1)重心法( Centroid method):均值点的距离
? ? ? ?11,xy ? ?22,xy
2011-10-16 45
cxt
? 用两类的重心间的距离作为两类的距离
2222
lm
r
m
r
l
tm
r
m
tl
r
l
tr Dn
n
n
nD
n
nD
n
nD ?????
rml nnn ??
Gr
Gt
2011-10-16 46
cxt
? Centroid Method-Five Clusters,
Data for five clusters
Similarity Matrix
2011-10-16 47
cxt
? Centroid Method-Four Clusters,
Data for four clusters
Similarity matrix
2011-10-16 48
cxt
? Centroid Method-Three Clusters,
Data for three clusters
Similarity matrix
2011-10-16 49
cxt
? Similarity Matrix,2 Clusters
Data for two clusters
Similarity matrix
2011-10-16 50
cxt
? Centroid Method:Summary
? The algorithm forms clusters in a hierarchical
fashion,
? The number of clusters at each stage is one less
than the previous one,
? For n observations,there are (n-1) steps of the
hierarchical process,
? Each cluster is represented by the centroid of that
cluster for computing distances between
clusters,
2011-10-16 51
cxt
? Dendrogram,( 见图 Figure )
? A dendogram is constructed to illustrates
the mergers or divisions which have been
made at successive levels as the results of
the clustering,
2011-10-16 52
cxt
( 2)、最短距离( Nearest Neighbor or
Single Linkage)
x21?
x12? x22?
x11? 13d
类 Gp与类 Gq之间的距离 Dpq (d(xi,xj)表示点 xi∈ G p和 xj ∈ G q之间的距离 )
m i n (,)p q i jD d x x?
2011-10-16 53
cxt
? 以当前某个样本与已经形成的小类中的各样本距离
中的最小值作为当前样本与该小类之间的距离。
例 1:为了研究辽宁省 5省区某年城镇居民生活消费的
分布规律,根据调查资料做类型划分
省份 x1 x2 x3 x4 x5 x6 x7 x8
辽宁
浙江
河南
甘肃
青海
7.90
7.68
9.42
9.16
10.06
39.77
50.37
27.93
27.98
28.64
8.49
11.35
8.20
9.01
10.52
12.94
13.30
8.14
9.32
10.05
19.27
19.25
16.17
15.99
16.18
11.05
14.59
9.42
9.10
8.39
2.04
2.75
1.55
1.82
1.96
13.29
14.87
9.76
11.35
10.81
2011-10-16 54
cxt
G1={辽宁 },G2={浙江 },G3={河南 },G4={甘肃 },G5={青海 }
采用欧氏距离,
d12 =[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-
19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2
d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0
2 11.67 0
3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
2011-10-16 55
cxt
d61=d(3,4)1=min{d13,d14}=13.12 d62=d(3,4)2=min{d23,d24}=24.06
d65=d(3,4)5=min{d35,d45}=2.21
6 1 2 5
6 0
D2= 1 13.12 0
2 24.06 11.67 0
5 2.21 12.80 23.54 0
d71=d(3,4,5)1=min{d13,d14,d15}=12.80
d72=d(3,4,5)2=min{d23,d24,d25}=23.54
7 1 2
D3= 7 0
1 12.80 0
2 23.54 11.67 0
河南、甘肃与青海并为一新类
G7={G6,G5}={G3,G4,G6}
G8={G1,G2}
2011-10-16 56
cxt
d78=min{d71,d72}=12.80
7 8
D4= 7 0
8 12.8 0
河南 3
甘肃 4
青海 5
辽宁 1
浙江 2
2011-10-16 57
cxt
例,
?Similarity matrix
?Distance between cluster 1 (S1 & S2) and observation
S3 is the
minimum of the following distances
? and
2011-10-16 58
cxt
? Similarity Matrix,5 Clusters
? Distance between cluster 1 (S1 & S2) and observation S4 is the
minimum of the following distances
? and
2011-10-16 59
cxt
? Similarity Matrix,4 Clusters
? Similarity Matrix,3 Clusters
2011-10-16 60
cxt
? Nearest Neighbor( Single-Linkage) Method,Two and
one Cluster
? Continue merging observations (or clusters)
? Cluster (S3 & S4) and cluster (S5 & S6) have the
smallest distance,Therefore,combine these two
clusters to form a new cluster (S3,S4,S5,S6),
? The other cluster is (S1 & S2),The squared distance
between these two cluster is 145.00,
? Obviously,the next step is to group all the subjects
into one cluster,
2011-10-16 61
cxt
? Dendrogram – Single-Linkage Method
2011-10-16 62
cxt
( 3)最长距离( Furthest Neighbor or Complete
Linkage )
?
?
?
x11?
x21?
?
? ?
12d
m a x (,)p q i jD d x x?
2011-10-16 63
cxt
? 以当前某个样本与已经形成的小类中的各样
本距离中的最大值作为当前样本与该小类之
间的距离。
例 2:对例 1的数据以最长距离法聚类。
2011-10-16 64
cxt
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54
d34=2.2 d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0
2 11.67 0
3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
d61=d(3,4)1=max{d13,d14}=13.80 d62=d(3,4)2=max{d23,d24}=24.63
d65=d(3,4)5=max{d35,d45}=3.51
6 1 2 5
6 0
D2= 1 13.80 0
2 24.63 11.67 0
5 3.51 12.80 23.54 0
河南与甘肃的距离最近,先将二者( 3和 4)
合为一类 G6={G2,G4}
河南、甘肃与青海并为一新类
G7={G6,G5}={G3,G4,G6}
2011-10-16 65
cxt
d71=d(3,4,5)1=max{d13,d14,d15}=13.80
d72=d(3,4,5)2=max{d23,d24,d25}=24.63
7 1 2
D3= 7 0
1 13.80 0
2 24.63 11.67 0
d78=max{d71,d72}=24.63
7 8
D4= 7 0
8 24.63 0
G8={G1,G2}
2011-10-16 66
cxt
例,
Similarity matrix
Distance between cluster 1 (S1 and S2) and observations
S3,S5 are respectively,
2011-10-16 67
cxt
? Similarity matrix,Five clusters
2011-10-16 68
cxt
? Similarity Matrix,4 Clusters
? Similarity Matrix,3 Clusters
2011-10-16 69
cxt
? 最远距离法, Two and one cluster
? Continue merging observations (or clusters)
? Different from the Centroid and Single-Linkage
methods,This time,Cluster (S1 & S2) and cluster
(S3 & S4) have the smallest distance (221.00),
Therefore,combine these two clusters to form a
new cluster (S1,S2,S3,S4),
? The other cluster is (S5 & S6),The squared
distance between these two cluster is 821.00,
? Obviously,the next step is to group all the
subjects into one cluster,
2011-10-16 70
cxt
? Dendrogram – Complete-Linkage
Method
2011-10-16 71
cxt
( 4) 组间平均连接( Between-group Linkage)
? 为所有样本对间的平均距离。
? 利用了所有样本对距离的信息
?
?
?
?
?
?
9
91 dd ?? ?
2011-10-16 72
cxt
例,
Similarity matrix
Distance between cluster 1 (S1 and S2) and observation
S3
2011-10-16 73
cxt
? Similarity matrix, 5 clusters
? Similarity Matrix,4 Clusters
2011-10-16 74
cxt
?Similarity Matrix,3 Clusters
2011-10-16 75
cxt
? 组间平均距离法, Two and one cluster
? Continue merging observations (or clusters)
? Cluster (S3 & S4) and cluster (S5 & S6) have the
smallest distance (176.00),Therefore,combine
these two clusters to form a new cluster (S3,S4,
S5,S6),
? The other cluster is (S1 & S2),The average
squared distance between these two cluster is
434.5,
? Obviously,the next step is to group all the
subjects into one cluster,
2011-10-16 76
cxt
? Dendrogram – Average-Linkage Method
2011-10-16 77
cxt
( 5)组内平均连接( Within-group Linkage)
? 对所有样本对的距离求平均值,包括小类之间的样本
对、小类内的样本对,
1 2 3 4 5 6
6
d d d d d d? ? ? ? ?
?
? ?
?
2011-10-16 78
cxt
( 6) 离差平方和法连接 (Ward’s method )
2,4
1,5
6,5
22( 2 3 ) ( 4 3 ) 2? ? ? ?
22(6 5, 5 ) ( 5 5, 5 ) 0, 5? ? ? ?
22( 1 3 ) ( 5 3 ) 8? ? ? ?
2011-10-16 79
cxt
红绿( 2,4,6,5) 8.75
离差平方和增加 8.75- 2.5= 6.25
黄绿( 6,5,1,5) 14.75
离差平方和增加 14.75- 8.5= 6.25
黄红( 2,4,1,5) 10- 10= 0
故按该方法的连接,黄红首先连接。
2011-10-16 80
cxt
? 先将 n个样本各成一类,然后每次缩小一类,
每缩小一类离差平方和就要增大,选择使离
差平方和 S增加最小的两类合并,直至所有
样本归为一类为止。
2222
lm
tr
t
tm
tr
mt
tl
tr
lt
tr Dnn
nD
nn
nnD
nn
nnD
???
??
?
??
2011-10-16 81
cxt
? Ward’s Method,All Possible Five-Cluster
Solutions
? ESS for the cluster (S1,S2) is(5 – 5.5)2 + (6 –5.5)2 + (5 – 5.5)2 +(6 – 5.5)2 = 1
? ESS for the cluster (S1,S3) is(5 – 10)2 + (15 –10)2 + (5 – 9.5)2 +(14 – 9.5)2 =
90.5
2011-10-16 82
cxt
? Ward’s Method, All Possible Four-Cluster
Solutions
2011-10-16 83
cxt
? Ward’s Method, All possible 3cluster
solutions
2011-10-16 84
cxt
? Dendrogram – Ward’s Method
2011-10-16 85
cxt
(二)系统聚类法的 SPSS处理
? 系统聚类法 是一种其聚类过程可以用所谓的谱系结构
或树形结构来描绘的方法。 ——事先不用确定分多少类
? SPSS系统聚类法:凝聚式
1,所有的研究对象各自算作一类,将最, 靠近, 的首先聚类
2,再将这个类和其它类中最, 靠近, 的结合,直至所有
的对象都合并为一类为止
? SPSS处理,
Analyze- Classify- Hierarchical Cluster
2011-10-16 86
cxt
? 例,16种饮料的热量、咖啡因、钠及价格四种变量
2011-10-16 87
cxt
SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2、把 calorie( 热量),caffeine( 咖啡因)、
sodium( 钠),price( 价格)选入 Variables
3、若对样本聚类( Q型聚类):在 Cluster选 Cases;
若对变量聚类( R型聚类)则在 Cluster选
Variables
4、选 Plots,再点 Dendrogram,则 画出树状图; 若
点 Icicle,则 画出冰挂图,其中 Orientation中 ( Vertical为纵
向冰挂图; Horizontal为横向冰挂图)。
……,,
2011-10-16 88
cxt
SPSS输出的树型图为,
2011-10-16 89
cxt
冰挂图,
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X
N u mb e r o f clu s t e r s
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
7
16
15
5 9 6 3
14
12
11
8
13
4 2
10
1
C a s e
2011-10-16 90
cxt
? 凝聚过程,
A g g l o m e r a t i o n S c h e d u l e
5 15 1 3, 1 3 0 0 0 7
4 13 2 5, 9 7 0 0 0 3
2 4 3 6, 4 8 5 0 2 8
6 9 6 9, 1 3 0 0 0 10
1 10 1 0 2, 6 3 0 0 0 15
8 11 1 5 0, 3 3 0 0 0 8
5 16 1 9 8, 3 7 5 1 0 11
2 8 3 1 9, 7 7 8 3 6 12
12 14 3 2 2, 5 4 0 0 0 12
3 6 4 5 8, 7 9 5 0 4 13
5 7 1 0 0 6,8 6 3 7 0 13
2 12 1 4 3 5,0 7 6 8 9 14
3 5 1 7 5 5,6 5 4 10 11 14
2 3 6 2 8 7,1 7 5 12 13 15
1 2 1 9 4 0 6, 6 8 4 5 14 0
S t a g e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C lu s t e r 1 C lu s t e r 2
C lu s t e r C o mb in e d
C o e f f ic ie n t s C lu s t e r 1 C lu s t e r 2
S t a g e C l u s t e r F ir s t
A p p e a r s
N e x t S t a g e
2011-10-16 91
cxt
? 例,依据 啤酒成分和价格数据,对啤酒进行分类,
啤酒名 热量 钠含量 酒精 价格
Budweiser 144.00 19.00 4.70,43
Schlitz 181.00 19.00 4.90,43
Ionenbrau 157.00 15.00 4.90,48
Kronensourc 170.00 7.00 5.20,73
Heineken 152.00 11.00 5.00,77
Old-milnaukee 145.00 23.00 4.60,26
Aucsberger 175.00 24.00 5.50,40
Strchs-bohemi 149.00 27.00 4.70,42
Miller-lite 99.00 10.00 4.30,43
Sudeiser-lich 113.00 6.00 3.70,44
Coors 140.00 16.00 4.60,44
Coorslicht 102.00 15.00 4.10,46
Michelos-lich 135.00 11.00 4.20,50
Secrs 150.00 19.00 4.70,76
Kkirin 149.00 6.00 5.00,79
Pabst-extra-l 68.00 15.00 2.30,36
Hamms 136.00 19.00 4.40,43
Heilemans-old 144.00 24.00 4.90,43
Olympia-gold- 72.00 6.00 2.90,46
Schlite-light 97.00 7.00 4.20,47
2011-10-16 92
cxt
? SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2,Variables:啤酒名、热量、钠含量、酒精、价格等。
3,Statistics,(Statistics)(Agglomeration Schedule凝聚状
态表 ),(Proximity matrix),Cluster membership( Single
solution,[4] 表示分为 4类)
4,Method,Cluster (Furthest Neighbor),Measure-Interval
(Squared Euclidean distance),Transform Value (Range 0-
1/By variable (值 -最小值 )/极差 )
5,Plots,(Dendrogram) Icicle(Specified range of cluster,
Start-1,Stop-4,by-1),Orientation (Vertical)
6,Save,Cluster Membership(Single solution [4])
2011-10-16 93
cxt
? 下表 (Proximity matrix)中行列交叉点为两种啤酒之间各变量的欧氏距离平方和,
P r o x i m i t y M a t r i x
,0 0 0, 1 1 1, 0 6 2, 7 2 4, 5 7 0, 1 4 0, 1 9 8, 1 4 7, 3 5 8, 5 5 6, 0 2 3, 2 1 3, 1 9 3, 3 9 1, 8 5 5 1, 0 6 9, 0 1 4, 0 6 1 1, 1 0 9, 5 3 0
,1 1 1, 0 0 0, 0 9 0, 6 6 5, 6 2 3, 2 4 9, 0 9 8, 2 3 0, 7 4 5, 8 8 6, 1 6 1, 5 9 1, 3 7 6, 4 6 7, 9 2 6 1, 7 1 4, 1 8 3, 1 6 4 1, 7 0 8, 9 3 3
,0 6 2, 0 9 0, 0 0 0, 3 9 0, 3 3 9, 3 3 7, 2 6 7, 3 4 8, 3 6 4, 4 8 2, 0 3 9, 3 0 1, 1 2 3, 3 2 3, 5 3 2 1, 3 3 2, 1 0 4, 2 0 6 1, 1 4 2, 4 7 5
,7 2 4, 6 6 5, 3 9 0, 0 0 0, 0 7 1 1, 4 5 1 1, 0 5 4 1, 3 0 8, 8 1 5, 7 7 6, 5 8 9, 8 8 5, 4 1 8, 3 8 5, 0 5 4 2, 2 6 9, 8 0 0 1, 0 3 7 1, 5 3 1, 7 5 6
,5 7 0, 6 2 3, 3 3 9, 0 7 1, 0 0 0 1, 2 7 2, 9 3 6 1, 0 2 6, 6 8 2, 7 2 9, 4 7 1, 6 5 3, 3 4 5, 1 5 5, 0 5 9 1, 8 9 9, 6 1 2, 8 0 1 1, 3 3 1, 6 5 6
,1 4 0, 2 4 9, 3 3 7 1, 4 5 1 1, 2 7 2, 0 0 0, 2 2 2, 1 3 0, 6 6 1, 9 3 0, 2 2 8, 4 5 7, 5 5 5, 9 2 9 1, 6 7 2 1, 1 6 2, 1 4 9, 1 1 4 1, 4 9 7, 9 3 4
,1 9 8, 0 9 8, 2 6 7 1, 0 5 4, 9 3 6, 2 2 2, 0 0 0, 1 3 7 1, 0 4 1 1, 3 5 8, 3 2 6, 8 0 5, 7 0 9, 6 3 0 1, 3 5 4 2, 0 8 6, 2 9 7, 1 1 4 2, 2 3 9 1, 3 1 4
,1 4 7, 2 3 0, 3 4 8 1, 3 0 8 1, 0 2 6, 1 3 0, 1 3 7, 0 0 0, 8 6 7 1, 2 0 1, 2 8 3, 5 4 0, 6 4 3, 5 5 7 1, 4 9 6 1, 4 1 6, 1 6 8, 0 2 7 1, 7 8 6 1, 1 5 2
,3 5 8, 7 4 5, 3 6 4, 8 1 5, 6 8 2, 6 6 1 1, 0 4 1, 8 6 7, 0 0 0, 0 8 7, 2 2 2, 0 6 5, 1 2 2, 7 9 1, 7 4 1, 5 4 0, 2 9 2, 6 3 8, 2 8 8, 0 2 7
,5 5 6, 8 8 6, 4 8 2, 7 7 6, 7 2 9, 9 3 0 1, 3 5 8 1, 2 0 1, 0 8 7, 0 0 0, 3 6 3, 2 1 0, 1 3 2, 9 5 3, 7 0 3, 5 5 6, 4 7 3, 9 5 1, 1 9 6, 0 5 0
,0 2 3, 1 6 1, 0 3 9, 5 8 9, 4 7 1, 2 2 8, 3 2 6, 2 8 3, 2 2 2, 3 6 3, 0 0 0, 1 4 1, 0 8 7, 3 9 4, 6 8 5, 9 4 8, 0 2 6, 1 5 6, 8 7 3, 3 4 7
,2 1 3, 5 9 1, 3 0 1, 8 8 5, 6 5 3, 4 5 7, 8 0 5, 5 4 0, 0 6 5, 2 1 0, 1 4 1, 0 0 0, 1 2 8, 5 7 2, 8 2 3, 4 4 3, 1 3 9, 3 8 8, 3 9 5, 1 4 8
,1 9 3, 3 7 6, 1 2 3, 4 1 8, 3 4 5, 5 5 5, 7 0 9, 6 4 3, 1 2 2, 1 3 2, 0 8 7, 1 2 8, 0 0 0, 4 2 8, 4 3 4, 8 1 0, 1 6 7, 4 5 5, 5 3 8, 1 5 3
,3 9 1, 4 6 7, 3 2 3, 3 8 5, 1 5 5, 9 2 9, 6 3 0, 5 5 7, 7 9 1, 9 5 3, 3 9 4, 5 7 2, 4 2 8, 0 0 0, 3 9 5 1, 6 9 5, 4 1 2, 4 5 1 1, 4 9 6, 8 7 0
,8 5 5, 9 2 6, 5 3 2, 0 5 4, 0 5 9 1, 6 7 2 1, 3 5 4 1, 4 9 6, 7 4 1, 7 0 3, 6 8 5, 8 2 3, 4 3 4, 3 9 5, 0 0 0 2, 0 6 8, 8 9 3 1, 1 9 9 1, 2 8 3, 6 4 1
1, 0 6 9 1, 7 1 4 1, 3 3 2 2, 2 6 9 1, 8 9 9 1, 1 6 2 2, 0 8 6 1, 4 1 6, 5 4 0, 5 5 6, 9 4 8, 4 4 3, 8 1 0 1, 6 9 5 2, 0 6 8, 0 0 0, 8 4 7 1, 3 1 4, 2 5 6, 6 0 7
,0 1 4, 1 8 3, 1 0 4, 8 0 0, 6 1 2, 1 4 9, 2 9 7, 1 6 8, 2 9 2, 4 7 3, 0 2 6, 1 3 9, 1 6 7, 4 1 2, 8 9 3, 8 4 7, 0 0 0, 0 8 6, 9 2 7, 4 5 5
,0 6 1, 1 6 4, 2 0 6 1, 0 3 7, 8 0 1, 1 1 4, 1 1 4, 0 2 7, 6 3 8, 9 5 1, 1 5 6, 3 8 8, 4 5 5, 4 5 1 1, 1 9 9 1, 3 1 4, 0 8 6, 0 0 0 1, 5 3 5, 8 8 2
1, 1 0 9 1, 7 0 8 1, 1 4 2 1, 5 3 1 1, 3 3 1 1, 4 9 7 2, 2 3 9 1, 7 8 6, 2 8 8, 1 9 6, 8 7 3, 3 9 5, 5 3 8 1, 4 9 6 1, 2 8 3, 2 5 6, 9 2 7 1, 5 3 5, 0 0 0, 2 1 7
,5 3 0, 9 3 3, 4 7 5, 7 5 6, 6 5 6, 9 3 4 1, 3 1 4 1, 1 5 2, 0 2 7, 0 5 0, 3 4 7, 1 4 8, 1 5 3, 8 7 0, 6 4 1, 6 0 7, 4 5 5, 8 8 2, 2 1 7, 0 0 0
C a s e
1, B u d w e i s e r
2, S c h l i t z
3, I o n e n b r a u
4, K r o n e n s o u r c
5, H e i n e k e n
6, O l d - m i l n a u k e e
7, A u c s b e r g e r
8, S t r c h s - b o h e m i
9, M i l l e r - l i t e
1 0, S u d e i s e r - l i c h
1 1, C o o r s
1 2, C o o r s l i c h t
1 3, M i c h e l o s - l i c h
1 4, S e c r s
1 5, K k i r i n
1 6, P a b s t - e x t r a - l
1 7, H a m m s
1 8, H e i l e m a n s - o l d
1 9, O l y m p i a - g o l d -
2 0, S c h l i t e - l i g h t
1, B u d w e i s e r 2, S c h l i t z 3, I o n e n b r a u
4:
K r o n e n s o u r c 5, H e i n e k e n
6:
O l d - m i l n a u k e e 7, A u c s b e r g e r
8:
S t r c h s - b o h e m i
9:
M i l l e r - l i t e
1 0,
S u d e i s e r - l i c h 1 1, C o o r s
1 2,
C o o r s l i c h t
1 3,
M i c h e l o s - l i c h 1 4, S e c r s 1 5, K k i r i n
1 6,
P a b s t - e x t r a - l 1 7, H a m m s
1 8,
H e i l e m a n s - o l d
1 9,
O l y m p i a - g o l d -
2 0,
S c h l i t e - l i g h t
S q u a r e d E u c l i d e a n D i s t a n c e
T h i s i s a d i s s i m i l a r i t y m a t r i x
2011-10-16 94
cxt
? 凝聚过程,
A g g l o m e r a t i o n S c h e d u l e
1 17, 0 1 4 0 0 2
1 11, 0 2 6 1 0 11
8 18, 0 2 7 0 0 10
9 20, 0 2 7 0 0 7
4 15, 0 5 4 0 0 6
4 5, 0 7 1 5 0 16
9 10, 0 8 7 4 0 12
2 3, 0 9 0 0 0 11
12 13, 1 2 8 0 0 12
6 8, 1 3 0 0 3 13
1 2, 1 8 3 2 8 15
9 12, 2 1 0 7 9 17
6 7, 2 2 2 10 0 15
16 19, 2 5 6 0 0 17
1 6, 3 4 8 11 13 18
4 14, 3 9 5 6 0 18
9 16, 8 1 0 12 14 19
1 4 1, 6 7 2 15 16 19
1 9 2, 2 6 9 18 17 0
S t a g e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
C l u s t e r 1 C l u s t e r 2
C l u s t e r C o m b i n e d
C o e f f i c i e n t s C l u s t e r 1 C l u s t e r 2
S t a g e C l u s t e r F i r s t
A p p e a r s
N e x t S t a g e
2011-10-16 95
cxt
? 分为四类的聚类结果,
C l u s t e r M e m b e r s h i p
1
1
1
2
2
1
1
1
3
3
1
3
3
2
2
4
1
1
4
3
C a s e
1, B u d w e i s e r
2, S c h l i t z
3, I o n e n b r a u
4, K r o n e n s o u r c
5, H e i n e k e n
6, O l d - m i l n a u k e e
7, A u c s b e r g e r
8, S t r c h s - b o h e m i
9, M i l l e r - l i t e
1 0, S u d e i s e r - l i c h
1 1, C o o r s
1 2, C o o r s l i c h t
1 3, M i c h e l o s - l i c h
1 4, S e c r s
1 5, K k i r i n
1 6, P a b s t - e x t r a - l
1 7, H a m m s
1 8, H e i l e m a n s - o l d
1 9, O l y m p i a - g o l d -
2 0, S c h l i t e - l i g h t
4 C l u s t e r s
2011-10-16 96
cxt
? 冰柱图 (icicle),
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
N u m b e r o f c l u s t e r s
1
2
3
4
1
9
:
O
l
y
m
p
i
a
-
g
o
l
d
-
1
6
:
P
a
b
s
t
-
e
x
t
r
a
-
l
1
3
:
M
i
c
h
e
l
o
s
-
l
i
c
h
1
2
:
C
o
o
r
s
l
i
c
h
t
1
0
:
S
u
d
e
i
s
e
r
-
l
i
c
h
2
0
:
S
c
h
l
i
t
e
-
l
i
g
h
t
9
:
M
i
l
l
e
r
-
l
i
t
e
1
4
:
S
e
c
r
s
5
:
H
e
i
n
e
k
e
n
1
5
:
K
k
i
r
i
n
4
:
K
r
o
n
e
n
s
o
u
r
c
7
:
A
u
c
s
b
e
r
g
e
r
1
8
:
H
e
i
l
e
m
a
n
s
-
o
l
d
8
:
S
t
r
c
h
s
-
b
o
h
e
m
i
6
:
O
l
d
-
m
i
l
n
a
u
k
e
e
3
:
I
o
n
e
n
b
r
a
u
2
:
S
c
h
l
i
t
z
1
1
:
C
o
o
r
s
1
7
:
H
a
m
m
s
1
:
B
u
d
w
e
i
s
e
r
C a s e
2011-10-16 97
cxt
? 聚类树型图
2011-10-16 98
cxt
例,学生测验数据,50个学生,X1-X10个测验项目要对这 10个变量 进行
变量聚类( R 型聚类)
过程和 Q型聚类(样本聚类,对 cases)一样
SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2,Variables,x1-x10
3,Statistics,(Statistics) (Proximity matrix),Cluster
membership ( Single solution [2]表示分为 2类 )
4,Method,Cluster (Furthest Neighbor),Measure-Interval
(Pearson correlation,用 Pearson相关系数 )
5,Plots,Icicle(All Cluster)
2011-10-16 99
cxt
P r o x i m i t y M a t r i x
,0 0 0, 1 3 3, 2 9 0, 0 9 9, 3 3 1, 1 9 8, 4 4 9, 3 2 3, 3 2 0, 1 1 2
,1 3 3, 0 0 0, 0 2 6, 4 1 1, 2 0 1, 3 2 8, 1 3 4, 1 9 9, 2 6 8, 2 7 1
,2 9 0, 0 2 6, 0 0 0, 1 5 1, 2 7 4, 4 0 6, 4 4 3, 5 0 9, 5 9 8, 3 1 8
,0 9 9, 4 1 1, 1 5 1, 0 0 0, 0 7 2, 2 8 2, 1 4 5, 4 0 1, 3 2 4, 4 0 7
,3 3 1, 2 0 1, 2 7 4, 0 7 2, 0 0 0, 3 1 7, 1 9 1, 0 6 3, 3 5 6, 0 8 4
,1 9 8, 3 2 8, 4 0 6, 2 8 2, 3 1 7, 0 0 0, 3 7 0, 3 1 2, 3 0 6, 2 9 6
,4 4 9, 1 3 4, 4 4 3, 1 4 5, 1 9 1, 3 7 0, 0 0 0, 3 3 7, 3 1 3, 2 4 6
,3 2 3, 1 9 9, 5 0 9, 4 0 1, 0 6 3, 3 1 2, 3 3 7, 0 0 0, 6 1 1, 5 8 4
,3 2 0, 2 6 8, 5 9 8, 3 2 4, 3 5 6, 3 0 6, 3 1 3, 6 1 1, 0 0 0, 3 2 5
,1 1 2, 2 7 1, 3 1 8, 4 0 7, 0 8 4, 2 9 6, 2 4 6, 5 8 4, 3 2 5, 0 0 0
C a s e
X1
X2
X3
X4
X5
X6
X7
X8
X9
X 1 0
X1 X2 X3 X4 X5 X6 X7 X8 X9 X 1 0
M a t r i x F i l e I n p u t
2011-10-16 100
cxt
? 分为两类的聚类结果,
C l u s t e r M e m b e r s h i p
1
1
2
1
1
1
1
2
2
2
C a s e
X1
X2
X3
X4
X5
X6
X7
X8
X9
X 1 0
2 C l u s t e r s
2011-10-16 101
cxt
? 冰柱图 (icicle),
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X
N u m b e r o f c l u s t e r s
1
2
3
4
5
6
7
8
9
X
1
0
X9
X8
X3
X4
X2
X6
X5
X7
X1
C a s e
2011-10-16 102
cxt
(三) SAS Commands,
TITLE CLUSTER ANALYSIS FOR DATA IN TABLE 7.1;
DATA TABLE1;
INPUT SID $ 1-2 INCOME 4-5 EDUC 7-8;
CARDS;
insert data here
PROC CLUSTER SIMPLE NOEIGEN METHOD=CENTROID RMSSTD RSQUARE NONORM
OUT=TREE;
ID SID;
VAR INCOME EDUC;
PROC TREE DATA=TREE OUT=CLUS3 NCLUSTERS=3;
ID SID;
COPY INCOME EDUC;
PROC SORT; BY CLUSTER;
PROC PRINT; BY CLUSTER;
VAR SID INCOME EDUC;
TITLE2 '3-CLUSTER SOLUTION ';
2011-10-16 103
cxt
? Interpretation,Descriptive Statistics
? Simple Statistics
? Root-Mean-Square Total-Sample Standard Deviation =
8.376555
2011-10-16 104
cxt
? The Cluster Solution
2011-10-16 105
cxt
? Evaluating Cluster Solution and Determining
Number of Clusters
? Root-mean-square standard deviation
? (RMSSTD) of the new cluster
? R-Squared (RS)
? Semipartial R-Square (SPR)
? Distance between two clusters
? Pseudo F statistic
? Pseudo t2 statistic
? CCC
2011-10-16 106
cxt
Cluster in Step 4 is formed by merging clusters CL4 and CL3 and
consists of subjects S3,S4,S5,and S6,
For the Income variable,SSw =157 with 3 df and for education
SSw=26 with 3 df,Total pooled SSw=157 + 26=183
And,the pooled degrees of freedom is equal to 3+ 3 =6
2011-10-16 107
cxt
? Evaluating Cluster Solution:RMSSTD
Cluster in Step 4 is formed by merging clusters CL4 and CL3
and consists of Subjects S3,S4,S5 and S6
2011-10-16 108
cxt
? Evaluating Cluster Solution,R-Square
2011-10-16 109
cxt
? Evaluating Cluster Solution:Semipartial R-
Square
? Cluster in Step 4 is formed by merging clusters CL3 and
CL4 and consists of Subjects S3,S4,S5 and S6
2011-10-16 110
cxt
? Evaluating Cluster Solution,Distance Between
Clusters
? Two cluster solution is obtained by merging clusters
CL4 and CL3,
2011-10-16 111
cxt
? Summary of the statistics for evaluating
cluster solution
2011-10-16 112
cxt
( 四) How Many Clusters?( 聚类个数确定)
? The problem is similar to that of identifying
the number of components in PCA or
number of factors in FA,
? Plot the statistics and obtain a plot similar
to that of the Scree Plot,
? Identify the elbow,look for a big jump in the
value of a given statistic-- 3 clusters
2011-10-16 113
cxt
碎石图,X轴表示分类数; y轴表示聚合系数
2011-10-16 114
cxt
黛米尔曼( Demirmen,1972)提出依据树状结构图分类
的准则,
2011-10-16 115
cxt
( 五)类个数的确定及解释 How Many Clusters
and Interpretation of Cluster Solution
? 3 Cluster Means
Cluster 1 (low education,low income cluster)
Cluster 2 (high education,high income cluster)
Cluster 3 (medium-education,medium income cluster),
2011-10-16 116
cxt
五、非系统聚类(或称为‘非层次聚类)
Nonhierarchical Clustering
2011-10-16 117
cxt
? 也叫做逐步聚类法、动态聚类法,k-均值聚类法、或
快速聚类法。 ——事先要确定分多少类
? 假定你说分 3类, 这个方法还进一步要求你事先确定 3个点为
,聚类种子, (SPSS软件自动为你选种子 );也就是说, 把这
3个点作为三类中每一类的基石 。
? 然后, 根据和这三个点的距离远近, 把所有点分成三类 。 再
把这三类的中心 ( 均值 ) 作为新的基石或种子 ( 原来的, 种
子, 就没用了 ), 重新按照距离分类 。
? 如此叠代下去, 直到达到停止叠代的要求 ( 比如, 各类最后
变化不大了, 或者叠代次数太多了 ) 。 显然, 前面的聚类种
子的选择并不必太认真, 它们很可能最后还会分到同一类中
呢 。 下面用饮料例的数据来做 k-均值聚类 。
2011-10-16 118
cxt
? 例,假定要把例 1中 16种饮料分成 3类。
F i n a l C l u s t e r C e n t e r s
2 0 3, 1 0 3 3, 7 1 1 0 7, 3 4
1, 6 5 4, 1 6 3, 4 9
1 3, 0 5 1 0, 0 6 8, 7 6
3, 1 5 2, 6 9 2, 9 4
C A L O R I E
C A F F E I N E
S O D I U M
P R I C E
1 2 3
C l u s t e r
N u m b e r o f C a s e s i n e a c h C l u s t e r
2, 0 0 0
7, 0 0 0
7, 0 0 0
1 6, 0 0 0
,0 0 0
1
2
3
C l u s t e r
V a l i d
M i s s i n g
2011-10-16 119
cxt
根据需要,可以输出哪些点分在一起。结果是,
第一类为饮料 1,10;
第二类为饮料 2,4,8,11,12,13,14;
第三类为剩下的饮料 3,5,6,7,9,15,16。
2011-10-16 120
cxt
? K-均值聚类 SPSS处理,
1,Analyze- Classify- K-Menas Cluster
2,Variables,calorie( 热量),caffeine( 咖啡
因),sodium( 钠),price( 价格)
3,Number of Clusters处选择 3(想要分的类数)
4,如果想要知道哪种饮料分到哪类,则选 Save,再选
Cluster Membership等
注意,
k-均值聚类只能做 Q型聚类,如要做 R型聚类,需要
把数据阵进行转置。
Chapter 9 Cluster analysis
2011-10-16 2
cxt
Presentation Outline(本章要点)
? What is cluster analysis?
? Similarities measures
? Hierarchical cluster analysis
– Centroid method
– Single linkage
– Complete linkage
– Average linkage
– Ward’s method
– Number of clusters
? Non-hierarchical cluster analysis
2011-10-16 3
cxt
一,什么是 聚类分析 What is cluster
analysis?
? 1,definition( 定义)
Cluster analysis is a technique used for combining
observations into groups or clusters such that,
( 1) Each group or cluster is homogeneous or
compact with respect to certain characteristics,That is,
observations in each group are similar to each other,
( 2) Each group should be different from other
groups with respect to the same characteristics; that
is,observations of one group should be different from
the observations of other groups,
2011-10-16 4
cxt
? 聚类分析
是根据, 物以类聚, 的道理,对样品或指标
进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之
间的相似性比与其他类的对象的相似性更强。
? 聚类分析的目的
使 类内 对象的同质性最大化和 类间 对象
的异质性最大化。
2011-10-16 5
cxt
? 聚类分析的 基本思想,
是根据一批样品的多个观测指标,具体地找出
一些能够度量样品或指标之间相似程度的统计
量,然后利用统计量将样品或指标进行归类。
把相似的样品或指标归为一类,把不相似的
归为其他类。直到把所有的样品(或指标)
聚合完毕,
? 相似样本或指标的集合称为 类 。
2011-10-16 6
cxt
? 2,Applications( 应用)
经济领域的应用如,
例 1,One goal of marketing managers is to identify
similar consumer segments so that marketing
programs can be developed and tailored to each
segment,For example,they might group
customers by their lifestyles,The result could be
one group that likes outdoor activities,another
that enjoys entertainment and a third that likes
cooking and gardening,Each segment may have
distinct product needs and may respond
differently to advertising approaches
2011-10-16 7
cxt
市场部经理可以依据消费者生活模式进行分
类,分为:喜欢户外活动的消费者
喜欢娱乐活动的消费者
喜欢烹饪和园艺的消费者
不同的群体对产品需求可能有所不同,对产
品广告反映也可能会有所不同。
市场部经理可针对不同的消费者群体制定
不同的推销策略。
2011-10-16 8
cxt
? 例 2、谁经常光顾商店,谁买什么东西,买
多少?
? 按忠诚卡记录的光临次数、光临时间、性别、
年龄、职业、购物种类、金额等变量分类
? 这样商店可以 …,
? 识别顾客购买模式(如喜欢一大早来买酸奶和
鲜肉,习惯周末时一次性大采购)
? 刻画不同的客户群的特征(用变量来刻画,就
象刻画猫和狗的特征一样)
2011-10-16 9
cxt
? 为什么这样分类?(分类的好处)
? 因为每一个类别里面的人消费方式都不一样,
需要针对不同的人群,制定不同的关系管理方
式,以提高客户对公司商业活动的参与率。
? 挖掘有价值的客户,并制定相应的促销策略,
如,对经常购买酸奶的客户
对累计消费达到 12个月的老客户
? 针对潜在客户派发广告,比在大街上乱发传单
命中率更高,成本更低!
2011-10-16 10
cxt
? 例 3、谁是银行信用卡的黄金客户?
? 利用储蓄额、刷卡消费金额、诚信度等变量对
客户分类,找出, 黄金客户, !
? 这样银行可以 ……
? 制定更吸引的服务,留住客户!比如,
? 一定额度和期限的免息透资服务!
? 百盛的贵宾打折卡!
? 在他或她生日的时候送上一个小蛋糕!
2011-10-16 11
cxt
? 在社会学中的应用
All scientific fields have the need to cluster
or group similar objects,Botanists group
plants,historians groups events,and
chemists group elements and phenomena,
2011-10-16 12
cxt
3,Steps in Cluster Analysis( 分析步骤)
? Select the observations to be clustered
? Select variables to use
? Decide if variables should be standardized
? Select a measure of similarity
? Decide on the type of clustering technique(hierarchical
or nonhierarchical)
? Select the type of clustering method for the selected
technique (e.g.Ward’s method in hierarchical
clustering technique)
? Decide on the number of clusters
? Interpret the cluster solution
2011-10-16 13
cxt
确定待研究的问题
选择聚类用的距离或相似系数
选择聚类方法
确定类别的个数
评估聚类分析的效果
解释聚类分析的结果
1.先确定待研究的问题
和待分类的对象
1.聚类时多采用距
离统计量
2.变量聚类时多采
用相似系数统计量
3.不同度量单位的
影响
1.所选的方法与所选的
距离是有关的
2.小样本与大样本
3.两者的串联使用
1.相关的理论或实践上的
需要
2.系统聚类法
3.非系统聚类法 透过比较各类别的中心,
来识别各个类别的意义,
从而给各个类别命名
2011-10-16 14
cxt
4,Geometric View of Cluster Analysis
? 例,依据收入与受教育程度(年度) 对 6个样本
进行分组。
2011-10-16 15
cxt
2011-10-16 16
cxt
二、相似性度量 ( Similarity Measure)
? Distance measures (for metric variables)
Euclidean Distance measures
Minkowski metric
Mahalanobis distance
? Similarity coefficients
Correlation coefficients
2011-10-16 17
cxt
? 样本或变量的 相似性 程度的数量指标,
( 1) 相似系数 性质越接近的变量或样品,它
们的相似系数越接近于 1或一 l,而彼此无关的变量
或样品它们的相似系数则越接近于 0,相似的为一
类,不相似的为不同类;
( 2) 距离 它是将每一个样品看作 p维空间的一
个点,并用某种度量方法测量点与点之间的距离,
距离较近的归为一类,距离较远的点应属于不同的
类。
? 样本分类( Q型聚类)常以 距离 刻画相似性
? 指标分类 (R型聚类 )常以 相似系数 刻画相似性
2011-10-16 18
cxt
? 1,Distance
设有 n个样本单位,每个样本测有 p个指标(变
量),原始资料阵为,
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
npnn
p
p
xxx
xxx
xxx
X
?
????
?
?
21
22221
11211
2011-10-16 19
cxt
? 每个样本都可以看成 p维空间中的一点,n个
样本就是 p维空间中的 n个点。
? 第 i个样本与第 j个样本之间的距离记为
? 聚类过程中,相距较近的点归为一类,相距
较远的点归为不同的类。
ijd
2011-10-16 20
cxt
? 第 i个和第 j个样品之间的距离 如下 四个条件,
0;ijd i j? 对 一 切 的 和 成 立
0;ijd i j??当 且 仅 当 成 立;i j j id d i j? 对 一 切 的 和 成 立
.i j i k k jd d d i j?? 对 于 一 切 的 和 成 立
2011-10-16 21
cxt
( 1) Euclidean Distance Measures( 欧氏距离)
Euclidean distance is the most
commonly used measure
Euclidean distance between
observations and
2011-10-16 22
cxt
? Since the square root operation does not
change the order of how close the
observations are to each other,some
programs use squared Euclidean distance
(i.e.,they do not take the square root),
2 2 2 2 2
1 1 2 2
1
( ) ( ) ( ) ( )
p
i j i k j k i j i j i p j p
k
d x x x x x x x x
?
? ? ? ? ? ? ? ? ?? L
2011-10-16 23
cxt
( 2) Minkowski Metric( 明考夫斯基距离)
? When m = 1,the measure
called the ―city-block‖ or Manhattan
distance between two points in p
dimensions.( 绝对距离)
? When m = 2,becomes the
Euclidean distance.( 欧氏距离)
2011-10-16 24
cxt
? 明氏距离、欧氏距离以及绝对距离 主要有以下两个
缺点,
① 距离的值与各指标的量纲有关 。 各指标计量单位的
选择有一定的人为性和随意性, 任何一个变量计量
单位的改变都会使此距离的数值改变, 从而使该距
离的数值依赖于各变量计量单位的选择 。
② 距离的定义没有考虑各个变量之间的相关性和重要
性 。 他们把各个变量都同等看待, 将两个样品在各
个变量上的离差简单地进行了综合 。
2011-10-16 25
cxt
? 例, 横轴 代表重量(单位,kg),纵轴 代表长
度(单位,cm)。 有四个点 A,B,C,D,见图。
C
D
A
B
10
5
5 101
1x
2x
2x1x
225 1 0 1 2 5AB ? ? ?
221 0 1 1 0 1CD ? ? ?
2011-10-16 26
cxt
21x m m x若 用 作 单 位, 单 位 不 变, 则 A 坐 标 为 ( 0, 50 ),
C 坐 标 为 ( 0, 100 )
225 0 1 0 2 6 0 0AB ? ? ?
221 0 0 1 1 0 0 0 1CD ? ? ?
2011-10-16 27
cxt
? 当各变量的单位不同或测量值范围相差很大时,不应直
接采用明氏距离、欧氏距离和绝对距离, 而应先对各变
量的数据作标准化处理,然后用标准化后的数据计算距
离。常用的标准化处理,
其中 为第 j个变量的样本均值;
为第 j个变量的样本方差。
* 1,2,,1,2,,i j j
ij
jj
xx
x i n j p
s
?
?
? ? ?LL
1
1 n
j ij
i
xxn?
?
? ?
2
1
1 ()
1
n
j j i j j
i
s x xn ?
?
??? ?
2011-10-16 28
cxt
( 3 ) Mahalanobis Distance( 马氏距离)
? Mahalanobis distance compensates for the
intercorrelation among the variables,
? 优点:克服量纲的影响、克服指标间相关性的影响
? 缺点,协方差矩阵难以确定
1( ) ( )i j pds ??? ? ?i j i jx x x x
2011-10-16 29
cxt
有两个正态总体 和,设有一个样
本,其值在 A处,点 A距离哪个总体近些(样本来自哪个总
体)?
1? 2?
1? 2?
A
21 1 1,(,)GN ?? 22 2 2,(,)GN ??
2011-10-16 30
cxt
? 例,Similarity Matrix containing
Euclidean Distances
2011-10-16 31
cxt
2011-10-16 32
cxt
? 2,Similarity coefficients相似系数
相似系数(或其绝对值)越大,变量之间的相似性程
度越高;反之,越低。聚类时,比较相似的变量归为一
类,不太相似的变量归为不同的类。
变量 与 的相似系数用 表示,满足以下三个条件,ix jx ijc
1,,( 0 )i j i jc x a x b a b? ? ? ? ?当 且 仅 当 和 是 常 数 ;
1,ijc ? 对 一 切 i,j ;
,i j j icc? 对 一 切 i,j 。
2011-10-16 33
cxt
? ( 1)、相关系数
设 和
是第 和 个样品的观测值,则二者之间的相似
测度为,
? ??? ipii xxx,,,21 ?ix ),,,( 21 ?? jpjj xxx ?jx
i j
? ?
?
? ?
?
??
??
? p
k
p
k jjkiik
p
k jjkiik
ij
xxxx
xxxx
1 1
22
1
])(][)([
))((
?
2011-10-16 34
cxt
? ( 2)夹角余弦
? ?
?
? ?
???
n
k
n
k kjki
n
k kjki
ijij
xx
xx
c
1 1
22
1c o s ?
22 1 ijij Cd ??
2011-10-16 35
cxt
名义变量的相似性度量:简单匹配系数( simple
matching)= 不配合的变量个数(配合与不配合变量
个数和)
例:某高校举办一个培训班,从学员的资料中得到 6个
变量:性别(),取值男和女;外语语种(),取
值为英、日、俄;专业(),取值为统计、会计、
金融;职业(),取值为教师和非教师;居住处
(),取值为校内和校外;学历(),取值本科和
本科以下。
1x 2x
3x
4x
5x 6
x
2011-10-16 36
cxt
现有学员 i和学员 j,
i=(男,英,统计,非教师,校外,本科)
j=(女,英,金融,教师,校外,本科以下 )
二者的距离,
4
6ijd ?
不 匹 配 变 量 个 数 =
匹 配 与 不 匹 配 变 量 个 数 和
2011-10-16 37
cxt
…
0 …
0
┇ ┇ ┇ ┇
… 0
pGqG 1G 2G nG
1G
2G
nG
12d nd1
21d
1nd 2nd
nd2
2011-10-16 38
cxt
三、聚类方法( Clustering Methods)
? 聚类分析依据聚类对象可分为两种类型,
对样本分类,称为 Q型聚类分析
对变量分类,称为 R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特征
的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的变
量聚集在一起,差异性大的变量分离开来,可在相似
变量中选择少数具有代表性的变量参与其他分析,实
现减少变量个数,达到变量降维的目的。
2011-10-16 39
cxt
? There are two types of clustering methods( 聚类方
法),
Hierarchical and non- hierarchical
系统聚类(层次聚类)和非系统聚类(非层次聚类)
? Hierarchical系统聚类(层次聚类) has two
approaches,
Agglomerative hierarchical methods( 凝聚方式聚类) start
with the individual objects,group the most similar objects first,
and eventually all subgroups/objects are fused into a single
cluster,
Divisive hierarchical methods ( 分解方式聚类) start with
an initial single cluster which contains all the objects,then divide
the objects into dissimilar subgroups until each object forms a
group,
2011-10-16 40
cxt
? 聚类分析的方法,
系统聚类(层次聚类)
非系统聚类(非层次聚类)
? 系统聚类法包括,凝聚方式聚类,分解方式
聚类
? 非系统聚类法包括,K- 均值法 (快速聚类
法)等
2011-10-16 41
cxt
? Agglomerative versus Divisive Hierarchical
Methods
2011-10-16 42
cxt
四、系统聚类 (又称‘层次聚类’)
Hierarchical Clustering
(一)类与类之间距离测量方法,
? Centroid method( 重心法)
? Single-linkage method (nearest-neighbor)( 最近距离法)
– groups the objects according to the distance between their
nearest members
? Complete linkage method (farthest-neighbor)( 最远距离法)
– groups the objects according to the distance between their
farthest members
? Average linkage method( 平均距离法,组间、组内)
– uses the average distance between pairs of members in the
respective sets
? Ward’s method( 离差平方和法)
2011-10-16 43
cxt
2011-10-16 44
cxt
( 1)重心法( Centroid method):均值点的距离
? ? ? ?11,xy ? ?22,xy
2011-10-16 45
cxt
? 用两类的重心间的距离作为两类的距离
2222
lm
r
m
r
l
tm
r
m
tl
r
l
tr Dn
n
n
nD
n
nD
n
nD ?????
rml nnn ??
Gr
Gt
2011-10-16 46
cxt
? Centroid Method-Five Clusters,
Data for five clusters
Similarity Matrix
2011-10-16 47
cxt
? Centroid Method-Four Clusters,
Data for four clusters
Similarity matrix
2011-10-16 48
cxt
? Centroid Method-Three Clusters,
Data for three clusters
Similarity matrix
2011-10-16 49
cxt
? Similarity Matrix,2 Clusters
Data for two clusters
Similarity matrix
2011-10-16 50
cxt
? Centroid Method:Summary
? The algorithm forms clusters in a hierarchical
fashion,
? The number of clusters at each stage is one less
than the previous one,
? For n observations,there are (n-1) steps of the
hierarchical process,
? Each cluster is represented by the centroid of that
cluster for computing distances between
clusters,
2011-10-16 51
cxt
? Dendrogram,( 见图 Figure )
? A dendogram is constructed to illustrates
the mergers or divisions which have been
made at successive levels as the results of
the clustering,
2011-10-16 52
cxt
( 2)、最短距离( Nearest Neighbor or
Single Linkage)
x21?
x12? x22?
x11? 13d
类 Gp与类 Gq之间的距离 Dpq (d(xi,xj)表示点 xi∈ G p和 xj ∈ G q之间的距离 )
m i n (,)p q i jD d x x?
2011-10-16 53
cxt
? 以当前某个样本与已经形成的小类中的各样本距离
中的最小值作为当前样本与该小类之间的距离。
例 1:为了研究辽宁省 5省区某年城镇居民生活消费的
分布规律,根据调查资料做类型划分
省份 x1 x2 x3 x4 x5 x6 x7 x8
辽宁
浙江
河南
甘肃
青海
7.90
7.68
9.42
9.16
10.06
39.77
50.37
27.93
27.98
28.64
8.49
11.35
8.20
9.01
10.52
12.94
13.30
8.14
9.32
10.05
19.27
19.25
16.17
15.99
16.18
11.05
14.59
9.42
9.10
8.39
2.04
2.75
1.55
1.82
1.96
13.29
14.87
9.76
11.35
10.81
2011-10-16 54
cxt
G1={辽宁 },G2={浙江 },G3={河南 },G4={甘肃 },G5={青海 }
采用欧氏距离,
d12 =[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-
19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2
d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0
2 11.67 0
3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
2011-10-16 55
cxt
d61=d(3,4)1=min{d13,d14}=13.12 d62=d(3,4)2=min{d23,d24}=24.06
d65=d(3,4)5=min{d35,d45}=2.21
6 1 2 5
6 0
D2= 1 13.12 0
2 24.06 11.67 0
5 2.21 12.80 23.54 0
d71=d(3,4,5)1=min{d13,d14,d15}=12.80
d72=d(3,4,5)2=min{d23,d24,d25}=23.54
7 1 2
D3= 7 0
1 12.80 0
2 23.54 11.67 0
河南、甘肃与青海并为一新类
G7={G6,G5}={G3,G4,G6}
G8={G1,G2}
2011-10-16 56
cxt
d78=min{d71,d72}=12.80
7 8
D4= 7 0
8 12.8 0
河南 3
甘肃 4
青海 5
辽宁 1
浙江 2
2011-10-16 57
cxt
例,
?Similarity matrix
?Distance between cluster 1 (S1 & S2) and observation
S3 is the
minimum of the following distances
? and
2011-10-16 58
cxt
? Similarity Matrix,5 Clusters
? Distance between cluster 1 (S1 & S2) and observation S4 is the
minimum of the following distances
? and
2011-10-16 59
cxt
? Similarity Matrix,4 Clusters
? Similarity Matrix,3 Clusters
2011-10-16 60
cxt
? Nearest Neighbor( Single-Linkage) Method,Two and
one Cluster
? Continue merging observations (or clusters)
? Cluster (S3 & S4) and cluster (S5 & S6) have the
smallest distance,Therefore,combine these two
clusters to form a new cluster (S3,S4,S5,S6),
? The other cluster is (S1 & S2),The squared distance
between these two cluster is 145.00,
? Obviously,the next step is to group all the subjects
into one cluster,
2011-10-16 61
cxt
? Dendrogram – Single-Linkage Method
2011-10-16 62
cxt
( 3)最长距离( Furthest Neighbor or Complete
Linkage )
?
?
?
x11?
x21?
?
? ?
12d
m a x (,)p q i jD d x x?
2011-10-16 63
cxt
? 以当前某个样本与已经形成的小类中的各样
本距离中的最大值作为当前样本与该小类之
间的距离。
例 2:对例 1的数据以最长距离法聚类。
2011-10-16 64
cxt
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54
d34=2.2 d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0
2 11.67 0
3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
d61=d(3,4)1=max{d13,d14}=13.80 d62=d(3,4)2=max{d23,d24}=24.63
d65=d(3,4)5=max{d35,d45}=3.51
6 1 2 5
6 0
D2= 1 13.80 0
2 24.63 11.67 0
5 3.51 12.80 23.54 0
河南与甘肃的距离最近,先将二者( 3和 4)
合为一类 G6={G2,G4}
河南、甘肃与青海并为一新类
G7={G6,G5}={G3,G4,G6}
2011-10-16 65
cxt
d71=d(3,4,5)1=max{d13,d14,d15}=13.80
d72=d(3,4,5)2=max{d23,d24,d25}=24.63
7 1 2
D3= 7 0
1 13.80 0
2 24.63 11.67 0
d78=max{d71,d72}=24.63
7 8
D4= 7 0
8 24.63 0
G8={G1,G2}
2011-10-16 66
cxt
例,
Similarity matrix
Distance between cluster 1 (S1 and S2) and observations
S3,S5 are respectively,
2011-10-16 67
cxt
? Similarity matrix,Five clusters
2011-10-16 68
cxt
? Similarity Matrix,4 Clusters
? Similarity Matrix,3 Clusters
2011-10-16 69
cxt
? 最远距离法, Two and one cluster
? Continue merging observations (or clusters)
? Different from the Centroid and Single-Linkage
methods,This time,Cluster (S1 & S2) and cluster
(S3 & S4) have the smallest distance (221.00),
Therefore,combine these two clusters to form a
new cluster (S1,S2,S3,S4),
? The other cluster is (S5 & S6),The squared
distance between these two cluster is 821.00,
? Obviously,the next step is to group all the
subjects into one cluster,
2011-10-16 70
cxt
? Dendrogram – Complete-Linkage
Method
2011-10-16 71
cxt
( 4) 组间平均连接( Between-group Linkage)
? 为所有样本对间的平均距离。
? 利用了所有样本对距离的信息
?
?
?
?
?
?
9
91 dd ?? ?
2011-10-16 72
cxt
例,
Similarity matrix
Distance between cluster 1 (S1 and S2) and observation
S3
2011-10-16 73
cxt
? Similarity matrix, 5 clusters
? Similarity Matrix,4 Clusters
2011-10-16 74
cxt
?Similarity Matrix,3 Clusters
2011-10-16 75
cxt
? 组间平均距离法, Two and one cluster
? Continue merging observations (or clusters)
? Cluster (S3 & S4) and cluster (S5 & S6) have the
smallest distance (176.00),Therefore,combine
these two clusters to form a new cluster (S3,S4,
S5,S6),
? The other cluster is (S1 & S2),The average
squared distance between these two cluster is
434.5,
? Obviously,the next step is to group all the
subjects into one cluster,
2011-10-16 76
cxt
? Dendrogram – Average-Linkage Method
2011-10-16 77
cxt
( 5)组内平均连接( Within-group Linkage)
? 对所有样本对的距离求平均值,包括小类之间的样本
对、小类内的样本对,
1 2 3 4 5 6
6
d d d d d d? ? ? ? ?
?
? ?
?
2011-10-16 78
cxt
( 6) 离差平方和法连接 (Ward’s method )
2,4
1,5
6,5
22( 2 3 ) ( 4 3 ) 2? ? ? ?
22(6 5, 5 ) ( 5 5, 5 ) 0, 5? ? ? ?
22( 1 3 ) ( 5 3 ) 8? ? ? ?
2011-10-16 79
cxt
红绿( 2,4,6,5) 8.75
离差平方和增加 8.75- 2.5= 6.25
黄绿( 6,5,1,5) 14.75
离差平方和增加 14.75- 8.5= 6.25
黄红( 2,4,1,5) 10- 10= 0
故按该方法的连接,黄红首先连接。
2011-10-16 80
cxt
? 先将 n个样本各成一类,然后每次缩小一类,
每缩小一类离差平方和就要增大,选择使离
差平方和 S增加最小的两类合并,直至所有
样本归为一类为止。
2222
lm
tr
t
tm
tr
mt
tl
tr
lt
tr Dnn
nD
nn
nnD
nn
nnD
???
??
?
??
2011-10-16 81
cxt
? Ward’s Method,All Possible Five-Cluster
Solutions
? ESS for the cluster (S1,S2) is(5 – 5.5)2 + (6 –5.5)2 + (5 – 5.5)2 +(6 – 5.5)2 = 1
? ESS for the cluster (S1,S3) is(5 – 10)2 + (15 –10)2 + (5 – 9.5)2 +(14 – 9.5)2 =
90.5
2011-10-16 82
cxt
? Ward’s Method, All Possible Four-Cluster
Solutions
2011-10-16 83
cxt
? Ward’s Method, All possible 3cluster
solutions
2011-10-16 84
cxt
? Dendrogram – Ward’s Method
2011-10-16 85
cxt
(二)系统聚类法的 SPSS处理
? 系统聚类法 是一种其聚类过程可以用所谓的谱系结构
或树形结构来描绘的方法。 ——事先不用确定分多少类
? SPSS系统聚类法:凝聚式
1,所有的研究对象各自算作一类,将最, 靠近, 的首先聚类
2,再将这个类和其它类中最, 靠近, 的结合,直至所有
的对象都合并为一类为止
? SPSS处理,
Analyze- Classify- Hierarchical Cluster
2011-10-16 86
cxt
? 例,16种饮料的热量、咖啡因、钠及价格四种变量
2011-10-16 87
cxt
SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2、把 calorie( 热量),caffeine( 咖啡因)、
sodium( 钠),price( 价格)选入 Variables
3、若对样本聚类( Q型聚类):在 Cluster选 Cases;
若对变量聚类( R型聚类)则在 Cluster选
Variables
4、选 Plots,再点 Dendrogram,则 画出树状图; 若
点 Icicle,则 画出冰挂图,其中 Orientation中 ( Vertical为纵
向冰挂图; Horizontal为横向冰挂图)。
……,,
2011-10-16 88
cxt
SPSS输出的树型图为,
2011-10-16 89
cxt
冰挂图,
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X
N u mb e r o f clu s t e r s
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
7
16
15
5 9 6 3
14
12
11
8
13
4 2
10
1
C a s e
2011-10-16 90
cxt
? 凝聚过程,
A g g l o m e r a t i o n S c h e d u l e
5 15 1 3, 1 3 0 0 0 7
4 13 2 5, 9 7 0 0 0 3
2 4 3 6, 4 8 5 0 2 8
6 9 6 9, 1 3 0 0 0 10
1 10 1 0 2, 6 3 0 0 0 15
8 11 1 5 0, 3 3 0 0 0 8
5 16 1 9 8, 3 7 5 1 0 11
2 8 3 1 9, 7 7 8 3 6 12
12 14 3 2 2, 5 4 0 0 0 12
3 6 4 5 8, 7 9 5 0 4 13
5 7 1 0 0 6,8 6 3 7 0 13
2 12 1 4 3 5,0 7 6 8 9 14
3 5 1 7 5 5,6 5 4 10 11 14
2 3 6 2 8 7,1 7 5 12 13 15
1 2 1 9 4 0 6, 6 8 4 5 14 0
S t a g e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C lu s t e r 1 C lu s t e r 2
C lu s t e r C o mb in e d
C o e f f ic ie n t s C lu s t e r 1 C lu s t e r 2
S t a g e C l u s t e r F ir s t
A p p e a r s
N e x t S t a g e
2011-10-16 91
cxt
? 例,依据 啤酒成分和价格数据,对啤酒进行分类,
啤酒名 热量 钠含量 酒精 价格
Budweiser 144.00 19.00 4.70,43
Schlitz 181.00 19.00 4.90,43
Ionenbrau 157.00 15.00 4.90,48
Kronensourc 170.00 7.00 5.20,73
Heineken 152.00 11.00 5.00,77
Old-milnaukee 145.00 23.00 4.60,26
Aucsberger 175.00 24.00 5.50,40
Strchs-bohemi 149.00 27.00 4.70,42
Miller-lite 99.00 10.00 4.30,43
Sudeiser-lich 113.00 6.00 3.70,44
Coors 140.00 16.00 4.60,44
Coorslicht 102.00 15.00 4.10,46
Michelos-lich 135.00 11.00 4.20,50
Secrs 150.00 19.00 4.70,76
Kkirin 149.00 6.00 5.00,79
Pabst-extra-l 68.00 15.00 2.30,36
Hamms 136.00 19.00 4.40,43
Heilemans-old 144.00 24.00 4.90,43
Olympia-gold- 72.00 6.00 2.90,46
Schlite-light 97.00 7.00 4.20,47
2011-10-16 92
cxt
? SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2,Variables:啤酒名、热量、钠含量、酒精、价格等。
3,Statistics,(Statistics)(Agglomeration Schedule凝聚状
态表 ),(Proximity matrix),Cluster membership( Single
solution,[4] 表示分为 4类)
4,Method,Cluster (Furthest Neighbor),Measure-Interval
(Squared Euclidean distance),Transform Value (Range 0-
1/By variable (值 -最小值 )/极差 )
5,Plots,(Dendrogram) Icicle(Specified range of cluster,
Start-1,Stop-4,by-1),Orientation (Vertical)
6,Save,Cluster Membership(Single solution [4])
2011-10-16 93
cxt
? 下表 (Proximity matrix)中行列交叉点为两种啤酒之间各变量的欧氏距离平方和,
P r o x i m i t y M a t r i x
,0 0 0, 1 1 1, 0 6 2, 7 2 4, 5 7 0, 1 4 0, 1 9 8, 1 4 7, 3 5 8, 5 5 6, 0 2 3, 2 1 3, 1 9 3, 3 9 1, 8 5 5 1, 0 6 9, 0 1 4, 0 6 1 1, 1 0 9, 5 3 0
,1 1 1, 0 0 0, 0 9 0, 6 6 5, 6 2 3, 2 4 9, 0 9 8, 2 3 0, 7 4 5, 8 8 6, 1 6 1, 5 9 1, 3 7 6, 4 6 7, 9 2 6 1, 7 1 4, 1 8 3, 1 6 4 1, 7 0 8, 9 3 3
,0 6 2, 0 9 0, 0 0 0, 3 9 0, 3 3 9, 3 3 7, 2 6 7, 3 4 8, 3 6 4, 4 8 2, 0 3 9, 3 0 1, 1 2 3, 3 2 3, 5 3 2 1, 3 3 2, 1 0 4, 2 0 6 1, 1 4 2, 4 7 5
,7 2 4, 6 6 5, 3 9 0, 0 0 0, 0 7 1 1, 4 5 1 1, 0 5 4 1, 3 0 8, 8 1 5, 7 7 6, 5 8 9, 8 8 5, 4 1 8, 3 8 5, 0 5 4 2, 2 6 9, 8 0 0 1, 0 3 7 1, 5 3 1, 7 5 6
,5 7 0, 6 2 3, 3 3 9, 0 7 1, 0 0 0 1, 2 7 2, 9 3 6 1, 0 2 6, 6 8 2, 7 2 9, 4 7 1, 6 5 3, 3 4 5, 1 5 5, 0 5 9 1, 8 9 9, 6 1 2, 8 0 1 1, 3 3 1, 6 5 6
,1 4 0, 2 4 9, 3 3 7 1, 4 5 1 1, 2 7 2, 0 0 0, 2 2 2, 1 3 0, 6 6 1, 9 3 0, 2 2 8, 4 5 7, 5 5 5, 9 2 9 1, 6 7 2 1, 1 6 2, 1 4 9, 1 1 4 1, 4 9 7, 9 3 4
,1 9 8, 0 9 8, 2 6 7 1, 0 5 4, 9 3 6, 2 2 2, 0 0 0, 1 3 7 1, 0 4 1 1, 3 5 8, 3 2 6, 8 0 5, 7 0 9, 6 3 0 1, 3 5 4 2, 0 8 6, 2 9 7, 1 1 4 2, 2 3 9 1, 3 1 4
,1 4 7, 2 3 0, 3 4 8 1, 3 0 8 1, 0 2 6, 1 3 0, 1 3 7, 0 0 0, 8 6 7 1, 2 0 1, 2 8 3, 5 4 0, 6 4 3, 5 5 7 1, 4 9 6 1, 4 1 6, 1 6 8, 0 2 7 1, 7 8 6 1, 1 5 2
,3 5 8, 7 4 5, 3 6 4, 8 1 5, 6 8 2, 6 6 1 1, 0 4 1, 8 6 7, 0 0 0, 0 8 7, 2 2 2, 0 6 5, 1 2 2, 7 9 1, 7 4 1, 5 4 0, 2 9 2, 6 3 8, 2 8 8, 0 2 7
,5 5 6, 8 8 6, 4 8 2, 7 7 6, 7 2 9, 9 3 0 1, 3 5 8 1, 2 0 1, 0 8 7, 0 0 0, 3 6 3, 2 1 0, 1 3 2, 9 5 3, 7 0 3, 5 5 6, 4 7 3, 9 5 1, 1 9 6, 0 5 0
,0 2 3, 1 6 1, 0 3 9, 5 8 9, 4 7 1, 2 2 8, 3 2 6, 2 8 3, 2 2 2, 3 6 3, 0 0 0, 1 4 1, 0 8 7, 3 9 4, 6 8 5, 9 4 8, 0 2 6, 1 5 6, 8 7 3, 3 4 7
,2 1 3, 5 9 1, 3 0 1, 8 8 5, 6 5 3, 4 5 7, 8 0 5, 5 4 0, 0 6 5, 2 1 0, 1 4 1, 0 0 0, 1 2 8, 5 7 2, 8 2 3, 4 4 3, 1 3 9, 3 8 8, 3 9 5, 1 4 8
,1 9 3, 3 7 6, 1 2 3, 4 1 8, 3 4 5, 5 5 5, 7 0 9, 6 4 3, 1 2 2, 1 3 2, 0 8 7, 1 2 8, 0 0 0, 4 2 8, 4 3 4, 8 1 0, 1 6 7, 4 5 5, 5 3 8, 1 5 3
,3 9 1, 4 6 7, 3 2 3, 3 8 5, 1 5 5, 9 2 9, 6 3 0, 5 5 7, 7 9 1, 9 5 3, 3 9 4, 5 7 2, 4 2 8, 0 0 0, 3 9 5 1, 6 9 5, 4 1 2, 4 5 1 1, 4 9 6, 8 7 0
,8 5 5, 9 2 6, 5 3 2, 0 5 4, 0 5 9 1, 6 7 2 1, 3 5 4 1, 4 9 6, 7 4 1, 7 0 3, 6 8 5, 8 2 3, 4 3 4, 3 9 5, 0 0 0 2, 0 6 8, 8 9 3 1, 1 9 9 1, 2 8 3, 6 4 1
1, 0 6 9 1, 7 1 4 1, 3 3 2 2, 2 6 9 1, 8 9 9 1, 1 6 2 2, 0 8 6 1, 4 1 6, 5 4 0, 5 5 6, 9 4 8, 4 4 3, 8 1 0 1, 6 9 5 2, 0 6 8, 0 0 0, 8 4 7 1, 3 1 4, 2 5 6, 6 0 7
,0 1 4, 1 8 3, 1 0 4, 8 0 0, 6 1 2, 1 4 9, 2 9 7, 1 6 8, 2 9 2, 4 7 3, 0 2 6, 1 3 9, 1 6 7, 4 1 2, 8 9 3, 8 4 7, 0 0 0, 0 8 6, 9 2 7, 4 5 5
,0 6 1, 1 6 4, 2 0 6 1, 0 3 7, 8 0 1, 1 1 4, 1 1 4, 0 2 7, 6 3 8, 9 5 1, 1 5 6, 3 8 8, 4 5 5, 4 5 1 1, 1 9 9 1, 3 1 4, 0 8 6, 0 0 0 1, 5 3 5, 8 8 2
1, 1 0 9 1, 7 0 8 1, 1 4 2 1, 5 3 1 1, 3 3 1 1, 4 9 7 2, 2 3 9 1, 7 8 6, 2 8 8, 1 9 6, 8 7 3, 3 9 5, 5 3 8 1, 4 9 6 1, 2 8 3, 2 5 6, 9 2 7 1, 5 3 5, 0 0 0, 2 1 7
,5 3 0, 9 3 3, 4 7 5, 7 5 6, 6 5 6, 9 3 4 1, 3 1 4 1, 1 5 2, 0 2 7, 0 5 0, 3 4 7, 1 4 8, 1 5 3, 8 7 0, 6 4 1, 6 0 7, 4 5 5, 8 8 2, 2 1 7, 0 0 0
C a s e
1, B u d w e i s e r
2, S c h l i t z
3, I o n e n b r a u
4, K r o n e n s o u r c
5, H e i n e k e n
6, O l d - m i l n a u k e e
7, A u c s b e r g e r
8, S t r c h s - b o h e m i
9, M i l l e r - l i t e
1 0, S u d e i s e r - l i c h
1 1, C o o r s
1 2, C o o r s l i c h t
1 3, M i c h e l o s - l i c h
1 4, S e c r s
1 5, K k i r i n
1 6, P a b s t - e x t r a - l
1 7, H a m m s
1 8, H e i l e m a n s - o l d
1 9, O l y m p i a - g o l d -
2 0, S c h l i t e - l i g h t
1, B u d w e i s e r 2, S c h l i t z 3, I o n e n b r a u
4:
K r o n e n s o u r c 5, H e i n e k e n
6:
O l d - m i l n a u k e e 7, A u c s b e r g e r
8:
S t r c h s - b o h e m i
9:
M i l l e r - l i t e
1 0,
S u d e i s e r - l i c h 1 1, C o o r s
1 2,
C o o r s l i c h t
1 3,
M i c h e l o s - l i c h 1 4, S e c r s 1 5, K k i r i n
1 6,
P a b s t - e x t r a - l 1 7, H a m m s
1 8,
H e i l e m a n s - o l d
1 9,
O l y m p i a - g o l d -
2 0,
S c h l i t e - l i g h t
S q u a r e d E u c l i d e a n D i s t a n c e
T h i s i s a d i s s i m i l a r i t y m a t r i x
2011-10-16 94
cxt
? 凝聚过程,
A g g l o m e r a t i o n S c h e d u l e
1 17, 0 1 4 0 0 2
1 11, 0 2 6 1 0 11
8 18, 0 2 7 0 0 10
9 20, 0 2 7 0 0 7
4 15, 0 5 4 0 0 6
4 5, 0 7 1 5 0 16
9 10, 0 8 7 4 0 12
2 3, 0 9 0 0 0 11
12 13, 1 2 8 0 0 12
6 8, 1 3 0 0 3 13
1 2, 1 8 3 2 8 15
9 12, 2 1 0 7 9 17
6 7, 2 2 2 10 0 15
16 19, 2 5 6 0 0 17
1 6, 3 4 8 11 13 18
4 14, 3 9 5 6 0 18
9 16, 8 1 0 12 14 19
1 4 1, 6 7 2 15 16 19
1 9 2, 2 6 9 18 17 0
S t a g e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
C l u s t e r 1 C l u s t e r 2
C l u s t e r C o m b i n e d
C o e f f i c i e n t s C l u s t e r 1 C l u s t e r 2
S t a g e C l u s t e r F i r s t
A p p e a r s
N e x t S t a g e
2011-10-16 95
cxt
? 分为四类的聚类结果,
C l u s t e r M e m b e r s h i p
1
1
1
2
2
1
1
1
3
3
1
3
3
2
2
4
1
1
4
3
C a s e
1, B u d w e i s e r
2, S c h l i t z
3, I o n e n b r a u
4, K r o n e n s o u r c
5, H e i n e k e n
6, O l d - m i l n a u k e e
7, A u c s b e r g e r
8, S t r c h s - b o h e m i
9, M i l l e r - l i t e
1 0, S u d e i s e r - l i c h
1 1, C o o r s
1 2, C o o r s l i c h t
1 3, M i c h e l o s - l i c h
1 4, S e c r s
1 5, K k i r i n
1 6, P a b s t - e x t r a - l
1 7, H a m m s
1 8, H e i l e m a n s - o l d
1 9, O l y m p i a - g o l d -
2 0, S c h l i t e - l i g h t
4 C l u s t e r s
2011-10-16 96
cxt
? 冰柱图 (icicle),
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X
N u m b e r o f c l u s t e r s
1
2
3
4
1
9
:
O
l
y
m
p
i
a
-
g
o
l
d
-
1
6
:
P
a
b
s
t
-
e
x
t
r
a
-
l
1
3
:
M
i
c
h
e
l
o
s
-
l
i
c
h
1
2
:
C
o
o
r
s
l
i
c
h
t
1
0
:
S
u
d
e
i
s
e
r
-
l
i
c
h
2
0
:
S
c
h
l
i
t
e
-
l
i
g
h
t
9
:
M
i
l
l
e
r
-
l
i
t
e
1
4
:
S
e
c
r
s
5
:
H
e
i
n
e
k
e
n
1
5
:
K
k
i
r
i
n
4
:
K
r
o
n
e
n
s
o
u
r
c
7
:
A
u
c
s
b
e
r
g
e
r
1
8
:
H
e
i
l
e
m
a
n
s
-
o
l
d
8
:
S
t
r
c
h
s
-
b
o
h
e
m
i
6
:
O
l
d
-
m
i
l
n
a
u
k
e
e
3
:
I
o
n
e
n
b
r
a
u
2
:
S
c
h
l
i
t
z
1
1
:
C
o
o
r
s
1
7
:
H
a
m
m
s
1
:
B
u
d
w
e
i
s
e
r
C a s e
2011-10-16 97
cxt
? 聚类树型图
2011-10-16 98
cxt
例,学生测验数据,50个学生,X1-X10个测验项目要对这 10个变量 进行
变量聚类( R 型聚类)
过程和 Q型聚类(样本聚类,对 cases)一样
SPSS处理,
1,Analyze- Classify- Hierarchical Cluster
2,Variables,x1-x10
3,Statistics,(Statistics) (Proximity matrix),Cluster
membership ( Single solution [2]表示分为 2类 )
4,Method,Cluster (Furthest Neighbor),Measure-Interval
(Pearson correlation,用 Pearson相关系数 )
5,Plots,Icicle(All Cluster)
2011-10-16 99
cxt
P r o x i m i t y M a t r i x
,0 0 0, 1 3 3, 2 9 0, 0 9 9, 3 3 1, 1 9 8, 4 4 9, 3 2 3, 3 2 0, 1 1 2
,1 3 3, 0 0 0, 0 2 6, 4 1 1, 2 0 1, 3 2 8, 1 3 4, 1 9 9, 2 6 8, 2 7 1
,2 9 0, 0 2 6, 0 0 0, 1 5 1, 2 7 4, 4 0 6, 4 4 3, 5 0 9, 5 9 8, 3 1 8
,0 9 9, 4 1 1, 1 5 1, 0 0 0, 0 7 2, 2 8 2, 1 4 5, 4 0 1, 3 2 4, 4 0 7
,3 3 1, 2 0 1, 2 7 4, 0 7 2, 0 0 0, 3 1 7, 1 9 1, 0 6 3, 3 5 6, 0 8 4
,1 9 8, 3 2 8, 4 0 6, 2 8 2, 3 1 7, 0 0 0, 3 7 0, 3 1 2, 3 0 6, 2 9 6
,4 4 9, 1 3 4, 4 4 3, 1 4 5, 1 9 1, 3 7 0, 0 0 0, 3 3 7, 3 1 3, 2 4 6
,3 2 3, 1 9 9, 5 0 9, 4 0 1, 0 6 3, 3 1 2, 3 3 7, 0 0 0, 6 1 1, 5 8 4
,3 2 0, 2 6 8, 5 9 8, 3 2 4, 3 5 6, 3 0 6, 3 1 3, 6 1 1, 0 0 0, 3 2 5
,1 1 2, 2 7 1, 3 1 8, 4 0 7, 0 8 4, 2 9 6, 2 4 6, 5 8 4, 3 2 5, 0 0 0
C a s e
X1
X2
X3
X4
X5
X6
X7
X8
X9
X 1 0
X1 X2 X3 X4 X5 X6 X7 X8 X9 X 1 0
M a t r i x F i l e I n p u t
2011-10-16 100
cxt
? 分为两类的聚类结果,
C l u s t e r M e m b e r s h i p
1
1
2
1
1
1
1
2
2
2
C a s e
X1
X2
X3
X4
X5
X6
X7
X8
X9
X 1 0
2 C l u s t e r s
2011-10-16 101
cxt
? 冰柱图 (icicle),
V e r t i c a l I c i c l e
X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X
N u m b e r o f c l u s t e r s
1
2
3
4
5
6
7
8
9
X
1
0
X9
X8
X3
X4
X2
X6
X5
X7
X1
C a s e
2011-10-16 102
cxt
(三) SAS Commands,
TITLE CLUSTER ANALYSIS FOR DATA IN TABLE 7.1;
DATA TABLE1;
INPUT SID $ 1-2 INCOME 4-5 EDUC 7-8;
CARDS;
insert data here
PROC CLUSTER SIMPLE NOEIGEN METHOD=CENTROID RMSSTD RSQUARE NONORM
OUT=TREE;
ID SID;
VAR INCOME EDUC;
PROC TREE DATA=TREE OUT=CLUS3 NCLUSTERS=3;
ID SID;
COPY INCOME EDUC;
PROC SORT; BY CLUSTER;
PROC PRINT; BY CLUSTER;
VAR SID INCOME EDUC;
TITLE2 '3-CLUSTER SOLUTION ';
2011-10-16 103
cxt
? Interpretation,Descriptive Statistics
? Simple Statistics
? Root-Mean-Square Total-Sample Standard Deviation =
8.376555
2011-10-16 104
cxt
? The Cluster Solution
2011-10-16 105
cxt
? Evaluating Cluster Solution and Determining
Number of Clusters
? Root-mean-square standard deviation
? (RMSSTD) of the new cluster
? R-Squared (RS)
? Semipartial R-Square (SPR)
? Distance between two clusters
? Pseudo F statistic
? Pseudo t2 statistic
? CCC
2011-10-16 106
cxt
Cluster in Step 4 is formed by merging clusters CL4 and CL3 and
consists of subjects S3,S4,S5,and S6,
For the Income variable,SSw =157 with 3 df and for education
SSw=26 with 3 df,Total pooled SSw=157 + 26=183
And,the pooled degrees of freedom is equal to 3+ 3 =6
2011-10-16 107
cxt
? Evaluating Cluster Solution:RMSSTD
Cluster in Step 4 is formed by merging clusters CL4 and CL3
and consists of Subjects S3,S4,S5 and S6
2011-10-16 108
cxt
? Evaluating Cluster Solution,R-Square
2011-10-16 109
cxt
? Evaluating Cluster Solution:Semipartial R-
Square
? Cluster in Step 4 is formed by merging clusters CL3 and
CL4 and consists of Subjects S3,S4,S5 and S6
2011-10-16 110
cxt
? Evaluating Cluster Solution,Distance Between
Clusters
? Two cluster solution is obtained by merging clusters
CL4 and CL3,
2011-10-16 111
cxt
? Summary of the statistics for evaluating
cluster solution
2011-10-16 112
cxt
( 四) How Many Clusters?( 聚类个数确定)
? The problem is similar to that of identifying
the number of components in PCA or
number of factors in FA,
? Plot the statistics and obtain a plot similar
to that of the Scree Plot,
? Identify the elbow,look for a big jump in the
value of a given statistic-- 3 clusters
2011-10-16 113
cxt
碎石图,X轴表示分类数; y轴表示聚合系数
2011-10-16 114
cxt
黛米尔曼( Demirmen,1972)提出依据树状结构图分类
的准则,
2011-10-16 115
cxt
( 五)类个数的确定及解释 How Many Clusters
and Interpretation of Cluster Solution
? 3 Cluster Means
Cluster 1 (low education,low income cluster)
Cluster 2 (high education,high income cluster)
Cluster 3 (medium-education,medium income cluster),
2011-10-16 116
cxt
五、非系统聚类(或称为‘非层次聚类)
Nonhierarchical Clustering
2011-10-16 117
cxt
? 也叫做逐步聚类法、动态聚类法,k-均值聚类法、或
快速聚类法。 ——事先要确定分多少类
? 假定你说分 3类, 这个方法还进一步要求你事先确定 3个点为
,聚类种子, (SPSS软件自动为你选种子 );也就是说, 把这
3个点作为三类中每一类的基石 。
? 然后, 根据和这三个点的距离远近, 把所有点分成三类 。 再
把这三类的中心 ( 均值 ) 作为新的基石或种子 ( 原来的, 种
子, 就没用了 ), 重新按照距离分类 。
? 如此叠代下去, 直到达到停止叠代的要求 ( 比如, 各类最后
变化不大了, 或者叠代次数太多了 ) 。 显然, 前面的聚类种
子的选择并不必太认真, 它们很可能最后还会分到同一类中
呢 。 下面用饮料例的数据来做 k-均值聚类 。
2011-10-16 118
cxt
? 例,假定要把例 1中 16种饮料分成 3类。
F i n a l C l u s t e r C e n t e r s
2 0 3, 1 0 3 3, 7 1 1 0 7, 3 4
1, 6 5 4, 1 6 3, 4 9
1 3, 0 5 1 0, 0 6 8, 7 6
3, 1 5 2, 6 9 2, 9 4
C A L O R I E
C A F F E I N E
S O D I U M
P R I C E
1 2 3
C l u s t e r
N u m b e r o f C a s e s i n e a c h C l u s t e r
2, 0 0 0
7, 0 0 0
7, 0 0 0
1 6, 0 0 0
,0 0 0
1
2
3
C l u s t e r
V a l i d
M i s s i n g
2011-10-16 119
cxt
根据需要,可以输出哪些点分在一起。结果是,
第一类为饮料 1,10;
第二类为饮料 2,4,8,11,12,13,14;
第三类为剩下的饮料 3,5,6,7,9,15,16。
2011-10-16 120
cxt
? K-均值聚类 SPSS处理,
1,Analyze- Classify- K-Menas Cluster
2,Variables,calorie( 热量),caffeine( 咖啡
因),sodium( 钠),price( 价格)
3,Number of Clusters处选择 3(想要分的类数)
4,如果想要知道哪种饮料分到哪类,则选 Save,再选
Cluster Membership等
注意,
k-均值聚类只能做 Q型聚类,如要做 R型聚类,需要
把数据阵进行转置。