聚类分析
1 聚类分析的基本思想
2 相似度的度量
3 五种系统聚类法
4 系统聚类方法的 SPSS实现
5 K-均值聚类法的 SPSS实现聚类分析原理
聚类分析的对象
1.对样本进行分类
2.对指标或变量进行分类
聚类分析方法
1.系统聚类法 (分层聚类 )
2.动态聚类法 (K-均值聚类 )
系统聚类法与聚类步骤流程图初始分类,;,,
2211 nn xGxGxG
nk?
若 与 距离最小,合并为一类
iG jG
1 nk
Kk? no
输出分类结果
yes
类与类之间距离定义的不同导致不同的系统聚类方法
yes
动态聚类法 (K-均值聚类 )与聚类步骤流程图寻找 K个凝聚点,
iKii xxx,,,21?
若 则 ;得),(m in),(
1 ijlKjikl xxdxxd
0kl Gx? 00201,,,KGGG?
计算各类的重心,
Kxxx,,,21?
若 则 ;得),(m in),(
1 jlKjkl xxdxxd kl Gx? K
GGG,,,21?
计算各类的重心,Kxxx,,,21?
重心改变输出分类结果
no
相似度的度量(样本间的距离)
欧式距离
马氏距离
明氏距离
)()(),(2 jijiji XXXXXXd
)()(),( 12 jijiji XXSXXXXd
q
qp
k
kjkiij xxqd
1
1
)()(?

)()(),( 12 XXSXXGXd
一点到总体的马氏距离样本离差阵相似度的度量(指标间的相似系数)
夹角余弦
相关系数
O a
b
指标 1与指标 2间的夹角余弦


n
k
n
k
kk
n
k
kk
xx
xx
C
1 1
212
2
2
1
1
21
12
)])([(
pn
n
n
pp
x
x
x
x
x
x
x
x
x

2
1
2
22
12
1
21
11
,,,
1X
2X
pX
指标 1与指标 2间的相关系数
21
1 1
2
22
2
11
1
2211
12
])()([
))((




n
k
n
k
kk
n
k
kk
xxxx
xxxx
R
五种系统聚类方法
最短距离法( nearest neighbor)
最长距离法( furthest neighbor)
重心法( centroid clustering )
),(min),(,jiGXGXqp XXdGGd
qjpi
),(m a x),(,jiGXGXqp XXdGGd
qjpi
),(),( qpqp XXdGGd?
类平均法 (Average linkage)


pi qjGX GX
ji
qp
qp XXdnnGGd ),(
1
),(


pi qjGX GX
ji
qp
qp XXdnnGGd ),(
1),( 22
离差平法和法( ward’s method)
qpqpqp SSSGGd),(2

pn
i
pippipp XXXXS
1
)()(

qn
i
qiqqiqq XXXXS
1
)()(

qp nn
i
qpqipqpqipqp XXXXS
1
)()(
反映 聚集程度
pG
反映 聚集程度
qG
聚类方法的 SPSS实现
Analyze Classify
K-means cluster(动态聚类法 )
Hierarchical cluster(系统聚类法)
对样本分类的 SPSS实现
Hierarchical cluster窗口样本聚类谱系聚类图可选可选点击点击对变量进行分类的 SPSS实现对变量分类
V e r t i c a l I c i c l e
X X X X X X X X X X X
X X X X X X X X X X
X X X X X X X X X
X X X X X X X X
X X X X X X X
N u m b e r o f c l u s t e r s
1
2
3
4
5
卫生机构数高校数新增固定资产城镇可支配收入农村纯收入人均
G
D
P
C a s e
例题
2005年全国各省市自治区社会均衡发展状况研究
样本聚类与变量聚类结果动态聚类法的 SPSS实现
K-means cluster窗口科研案例
王宇,范英,魏一鸣,人力资本对区域可持续发展的实证研究,数理统计与管理,2006,25(2):149-155
摘要
本文以我国 31个省、直辖市、自治区为单位,应用聚类分析法对各地区的人力资本、
经济发展、环境状况进行分析,试图探讨人力资本对我国区域可持续发展的影响和途径。结果表明,目前我国区域环境压力随着经济的发展而不断扩大,并逐步进入减速发展阶段,各地区应加大对人力资本的投资力度,实现经济的腾飞和环境保护力度的增强,最终实现我国区域的可持续发展。
加拿大环境基金组织的“真富指数”
可持续发展社会金融人力资本生产自然财富来源构成本文研究目的
本文的研究目的在于把互相差异的自然地理区域根据不同的属性(经济、人力资本和环境)用聚类方法进行分类和归纳,着重分析在加入人力资因素后,我国可持续发展在不同评价指标上表现出的不同特征,
揭示各区域内可持续发展的基本情况和协调程度,从而得出人力资本对我国区域可持续发展的影响途径和贡献程度。
可持续发展评价指标生态保护指标体系环境水平经济发展 产业结构教育 环境治理人力资本 环境状况 环境保护经济指标保健大气污染经济发展指标的分类北京、上海、
广东、江苏浙江、福建、
辽宁,天津
A B
其他各地区
D
山东、河北、
河南、四川
C
人力资本状况分类北京、上海、天津广东、浙江江苏、福建、
辽宁,吉林
A B
西藏、甘肃、青海云南、贵州
D
其他各地区
C
环境指标聚类分析其他各地区 陕西、辽宁、
宁夏、内蒙古
A B
上海
D
天津
C
环境治理情况分类黑龙江、甘肃、辽宁、吉林、云南天津、山东、北京安徽、广东、上海、福建、
浙江、湖北、江苏、河南
A B
西藏、青海
DC
其他各地区结果分析与讨论库茨涅茨 (Kuznets)曲线判别分析
1,判别分析的基本思想
2,距离判别法
3,Bayes判别法
4,Fisher判别法
5,逐步判别法
6,判别分析的 SPSS实现判别分析的基本思想
1G
1
1
12
11
n
x
x
x
问题描述
2G
2G
2
2
22
21
n
x
x
x
属于哪一类?x
1
1
S
x
2
2
S
x
1G

1
1? 2G

2
2?
距离判别法的基本原理


),(),(
),(),(,
),(),(,
21
212
211
GxdGxd
GxdGxdGx
GxdGxdGx
若待判,
若若
)()(),( 11111 xxGxd
)()(),( 21222 xxGxd
马氏距离距离判别法的线性判别准则前提条件
21
线性判别函数
ax
x
GxdGxd
xW
)(
)()(
)],(),([5.0
)(
21
1
12




判别准则


0)(
0)(,
0)(,
2
1
xW
xWGx
xWGx
若待判,
若若
2)( 21
与 的估计

1
1
1
1
11
1? n
i
ixnx?

1
1
2
2
22
1? n
i
ixnx?
)(
2
1?
21
21
SS
nn


理论判别函数与样本判别函数
aXXXSSXW )()()()()( 21121
aW )()()()( 211
a
2)( 21 XXX a
Bayes判别法的基本原理
已知 与 的 先验分布和各自总体的分布密度函数
由 Bayes公式 计算 后验概率,

最大后验概率准则
1G 2G 2211 )(,)( qGpqGp
)(),( 21 XfXf
)( 1?GP )( 2?GP



)()(
)()(
)()(
21
212
211
GPGP
GPGPG
GPGPG
若待判若若两个正态总体的 Bayes判别准则
与 的先验概率:
与 的密度函数:
1G 2G
21
1
1 nn
nq
21
2
2 nn
nq

1G 2G
)}()(21e x p{
)2(
1)(
1
1
12121
XXXf
p
)}()(21e x p {
)2(
1)(
2
1
22122
XXXf
p
判别函数:
判别法则:



)l n ()(
)l n ()(
)l n ()(
12
122
121
qqW
qqWG
qqWG
若待判若若
aXXXSSXW )()()()()( 21121
多组正态数据的 Bayes判别寻找简单的判别函数

1
1
G

2
2
G

3
3
G

4
4
G
1p 2p 3p 4p
(x)1f (x)2f (x)3f (x)4f
后验概率一般公式正态情形简化公式
4
1
( x )
( x )
)x(
i
ii
kk
k
fp
fp
Gp


)(x)(x
2
1e x p)x( 1
kkkk pGp
kkkkk pGp ln5.0x)()x( 11
Fisher判别法
研究问题的角度
基本思想线性投影变换 降维直接寻找线性判别式可分
p
x
x
x
x
2
1
xuxuxuxuy pp2211
二维降一维图示










1x
2x
y
z
组间离差平方和大组内离差平方和小可分性判别式可分准则
组内离差平方和
Wuuxuxuyy
i j
iij
i j
iij
22 )()(

i
i
i j
iijiij SxxxxW ))((
组间离差平方和
Buuxuxunyyn
i
iii
i
i
22 )()(
))(( xxxxnB i
i
ii
的选择u
Wuu
Buu
m a x
)1( WuuBuuL?
1Wuu
结论设 是 的特征值若 是 的最大特征值,
是对应的特征向量,则第一判别函数是:
1?
BW 1?
puuuu 112111?
pp xuxuxuxuy 121211111
21 BW 1?
判别效率
判别函数的选择

i
i
r11 8.01?r
8.021
i
i
m
mr?

一维 Fisher判别法则


212
211
yyyyGx
yyyyGx
若若
pp xuxuxuxuy 12121111
1y
2y











1x
2x
212111 xuxuy
y
多维 Fisher判别法则



),(),(
),(),(,
),(),(,
21
212
211
GydGyd
GydGydGx
GydGydGx
若待判,
若若
)()(),( 1111 1 yySyyGyd y
)()(),( 2122 2 yySyyGxd y
Bayes线性 判别与 Fisher判别的区别正态性前提假设
Bayes 有等方差性
Fisher 没有有没有缺陷:判别效率有可能较低使用判别分析应注意的问题
样本容量
1,每组至少 20个样本 2,变量与样本量比为 1:5
等协方差阵假设检验
Box’s 检验
评价判别模型
1,Wilks’ lambda 检验 2,交叉验证
单个变量的可分 性方差分析 (ANOVA)
等协方差阵假设的 Box’s检验
),( 11pN ),( 22pN
1n
样本 2n 样本
3n
样本 Kn 样本
),( 33pN ),( KKpN
零假设
K21
检验统计量


K
i
i
i
iK SnnSSSknkn
1
21 1
1ln)1()(1ln)(M?
)]1)(1(21[M)1( 2 Kppd




相等
)(
不等
i
i
i i
n
Kp
Kpp
n
KnnKp
pp
d
)1)(1(6
)1(132
1
1
1
)1)(1(6
132
2
1
2
knnnn21
统计量的渐进分布单个变量 的可分性 (ANOVA)
),( 211N ),( 212N
1n
样本 2n 样本 Kn 样本
),( 21 KN
零假设
K11211
1X
111211,,,nxxx? 222221,,,nxxx? 1,,,21 KnKK xxx?

总平方和分解



K
i
ii
K
i
n
j
iij
K
i
n
j
ij xxnxxxx
ii
1
2
1 1
2
1 1
2 )()()(
BWT SSS
组间平方和组内平方和总平方和检验统计量统计量的分布
)(
)1(
knS
kSF
W
B

),1( knkFF
评价判别模型 — Wilks’ lambda 检验
),( 1pN ),( 2pN
1n
样本 2n 样本
3n
样本 Kn 样本
),( 3pN ),(?KpN?
零假设
K21
总平方和分解



K
i
iiiiij
K
i
n
j
iijij
K
i
n
j
ij xxxxnxxxxxxxx
ii
11 11 1
))(())(())((
BWT SSS
组间平方和组内平方和总平方和检验统计量统计量的渐进分布
)]1([ln))(211( 2 KpKpn
T
W
KnKp S
S
,1,
评价判别模型 — 交叉验证留一个样本在外原则逐步判别法依据某种检验法则逐步筛选若干判别能力强的指标变量基本步骤利用选取的变量以及
Fisher判别法建立判别法则逐步筛选流程图
1ix
2ix
3ix
选入过程 剔除过程
这些变量的
Wilks统计量最小
统计量显著
寻找某个使条件 Wilks
统计量最小的指标变量
条件统计量不显著
4ix5i
x
6ix
2ix
7ix
检验各总体协方差阵相等
Fisher判别
Logistic回归
Box’s检验
Bayes判别
Fisher判别
Logistic回归拒绝 接受检验各总体均值相等判别是显著的
Wilks’ 检验判别不显著拒绝 接受单个变量均值相等的检验 (方差分析 )
单变量的判别是显著的
ANOVA
单变量的判别不显著,采用逐步判别拒绝 接受判别分析的 SPSS实现
Analyze Classify Discriminant
点击 1
点击 2
点击填写点击选取点击可选点击点击点击点击点击点击可选点击点击可选 点击点击例题 (估计金融机构正常运转的概率 )
Detecting ailing financial and business
establishments is an important function
of audit and control,Table 1 gives
some of the operating financial ratios of
33 firms that went bankrupt after 2
years and 33 that remained solvent
during the same period,Three financial
ratios were available for each firm:
金融机构监管的判别分析结果
a s s e tsto ta l
e a r ni n gr e ta in e dX?
1
a s s e tsto ta l
ta x e sa ndin te r e s tb e f o r ee a r ni n gX?
2
a s s e tsto ta l
s a le sX?
3

y e a r sa f t e rs o l v e n tif
y e a r sa f t e rb a n k r u p tifY
21
20
Response Variable
科研案例
葛超豪,葛学健,银行信贷风险评估计量模型探讨,统计与决策,2005,12:24-26
任志娟,SPSS中判别分析方法的正确使用,
统计与决策,2006 (2),157-157
摘要本文运用 聚类分析 和 Fisher 判别分析 对银行信贷风险作计量评估,详细介绍了模型的数学原理,
指标和数据的前期处理,并建立了信用评级的判别函数,通过对估计样本和检验样本的分类精度的分析和讨论,可知两种模型对信用风险评估均具有较高的科学性和精度,在此基础上,我们编写了应用程序以便于金融机构建立内部信用风险评估体系,促进银行信贷资产质量的提高,
一个简单的数据挖掘过程判别过程聚类过程数据处理过程指标选择过程判别分析聚类分析数据标准化
Wilks’Lambda 检验指标选择过程
根据相关性原理,从“企业景气调查” 65
个基本指标和 72个派生指标中,定性筛选归并出 19个具有代表性的复合指标,然后再采用逐步判别的方法并反复利用上述结论,获得如 表 1的 10个指标,
数据处理过程
原始数据矩阵中不同指标一般都有各自不同的量纲和数量级单位,这对预测精度影响较大,为了使不同量纲、不同数量级的数据能进行比较,我们首先应对数据进行变换使数据具有较好的数学性质,我们对数据进行三次变换,首先将某些指标的数据 取相反数,使各指标均在取值较大时对企业等级贡献较大,其次进行 标准化 变化,通过标准化后,每列数据的均值为 0、方差为 1,并能在抽取样本改变时保持相对稳定性,最后我们将原始数据的值域化 为 0到 1,此变化能使各指标规格化,
减少数据的波动,
聚类分析
采用重心法进行系统聚类,参照企业信用等级分类标准,将企业信用等级分为五级,分别称为
AAA,AA,A,B 和 C.为了提高样本的代表性,
我们对 289 个原始样本数据进行多次聚类,最终选出了 AAA 级 21 组,AA 级 36 组,A 级 20 组,B级
6 组,C 级 8 组,共计 91 个具有典型代表意义的特征企业样本,由此可得出 5 级分类的标准特征模版,对待估测的企业,可通过计算其与 5类标准模版的离差进行信用等级分类,
判别分析
采用 Bayes判别法,得 判别准则,
待判样本习题三
Classifying a potential business-school graduate
students
The admission officer of a business school has
used an,index” of under graduate grade point
average (CPA) and graduate management
aptitude test (GMAT) score to help decide which
applicants should be admitted to the school’s
graduate programs.
Pairs of x1=GPA,x2=GMAT values for groups of
recent applicants have been categorized as
G1,admitted; G2,not admitted; G3,borderline,
Suppose a new applicant has an undergraduate
GPA of x1=3.21 and a GMAT score of x2=497,
Let us classify this applicant using discriminant
analysis,
SPSS实现结果
L o g D e t e r m i n a n t s
2 4,8 7 9
2 5,3 0 4
2 3,6 2 5
2 4,8 5 5
g r o u p
n o t a d m i t t e d
a d m i t t e d
b o r d e r l i n e
P o o l e d w i t h i n - g r o u p s
R a n k
L o g
D e t e r m i n a n t
T h e r a n k s a n d n a t u r a l l o g a r i t h m s o f d e t e r m i n a n t s
p r i n t e d a r e t h o s e o f t h e g r o u p c o v a r i a n c e m a t r i c e s,
Te s t R e s u l t s
1 6,6 2 7
2,6 7 3
6
1 4 6 7 3 2,9
,0 1 4
B o x ' s M
A p p r o x,
d f 1
d f 2
S i g,
F
Te s t s n u l l h y p o t h e s i s o f e q u a l p o p u l a t i o n c o v a r i a n c e m a t r i c e s,
E i g e n v a l u e s
5,6 1 8
a
9 6,7 9 6,7,9 2 1
,1 9 0
a
3,3 1 0 0,0,3 9 9
F u n c t i o n
1
2
E i g e n v a l u e % o f V a r i a n c e C u m u l a t i v e %
C a n o n i c a l
C o r r e l a t i o n
F i r s t 2 c a n o n i c a l d i s c r i m i n a n t f u n c t i o n s w e r e u s e d i n t h e
a n a l y s i s,
a,
W i l k s ' La m bd a
,1 2 7 1 6 8,1 8 9 4,0 0 0
,8 4 0 1 4,1 6 8 1,0 0 0
Te s t o f Fu n c t i o n ( s )
1 t h r o u g h 2
2
W i l k s '
L a m b d a C h i - s q u a r e df S i g,
C a n oni c a l D i s c r i m i na nt Fun c t i o n C oe f f i c i e nt s
4,9 9 5 - 1,8 7 8
,0 0 9,0 1 4
- 1 9,0 6 1 - 1,4 6 4
G A P
G M A T
( C o n s t a n t )
1 2
Fu n c t i o n
U n s t a n d a r d i z e d c o e f f i c i e n t s
Fun c t i on s a t G r oup C e nt r oi ds
- 2,8 1 0,3 2 6
2,7 6 9,2 4 5
-,2 7 5 -,6 4 3
g r o u p
n o t a d m i t t e d
a d m i t t e d
b o r d e r l i n e
1 2
Fu n c t i o n
U n s t a n d a r d i z e d c a n o n i c a l d i s c r i m i n a n t
f u n c t i o n s e v a l u a t e d a t g r o u p m e a n s
P r i o r P r oba bi l i t i e s f or G r ou ps
,3 2 9 28 2 8,0 0 0
,3 6 5 31 3 1,0 0 0
,3 0 6 26 2 6,0 0 0
1,0 0 0 85 8 5,0 0 0
g r o u p
n o t a d m i t t e d
a d m i t t e d
b o r d e r l i n e
To t a l
P r i o r U n w e i g h t e d W e i g h t e d
C a s e s U s e d i n A n a l y s i sClassification Statistics
C l a s s i f i c a t i o n Fu n c t i o n C oe f f i c i e nt s
7 7,8 1 2 1 0 5,8 2 8 9 2,2 9 6
,1 6 6,2 1 2,1 7 3
- 1 3 4,7 6 0 - 2 4 0,7 4 0 - 1 7 7,9 9 4
G A P
G M A T
( C o n s t a n t )
n o t a d m i t t e d a d m i t t e d b o r d e r l i n e
g r o u p
Fi s h e r ' s l i n e a r d i s c r i m i n a n t f u n c t i o n s
C l a s s i f i c a t i o n R e s u l t s
b,c
26 0 2 28
0 28 3 31
1 1 24 26
0 1 0 1
9 2,9,0 7,1 1 0 0,0
.0 9 0,3 9,7 1 0 0,0
3,8 3,8 9 2,3 1 0 0,0
.0 1 0 0,0,0 1 0 0,0
26 0 2 28
0 27 4 31
1 1 24 26
9 2,9,0 7,1 1 0 0,0
.0 8 7,1 1 2,9 1 0 0,0
3,8 3,8 9 2,3 1 0 0,0
g r o u p
n o t a d m i t t e d
a d m i t t e d
b o r d e r l i n e
U n g r o u p e d c a s e s
n o t a d m i t t e d
a d m i t t e d
b o r d e r l i n e
U n g r o u p e d c a s e s
n o t a d m i t t e d
a d m i t t e d
b o r d e r l i n e
n o t a d m i t t e d
a d m i t t e d
b o r d e r l i n e
C o u n t
%
C o u n t
%
O r i g i n a l
C r o s s - v a l i d a t e d
a
n o t a d m i t t e d a d m i t t e d b o r d e r l i n e
P r e d i c t e d G r o u p M e m b e r s h i p
T o t a l
C r o s s v a l i d a t i o n i s d o n e o n l y f o r t h o s e c a s e s i n t h e a n a l y s i s,I n c r o s s v a l i d a t i o n,e a c h c a s e i s
c l a s s i f i e d b y t h e f u n c t i o n s d e r i v e d f r o m a l l c a s e s o t h e r t h a n t h a t c a s e,
a,
9 1,8 % o f o r i g i n a l g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d,
b,
9 0,6 % o f c r o s s - v a l i d a t e d g r o u p e d c a s e s c o r r e c t l y c l a s s i f i e d,
c,
回答下列问题
Box’s的检验结果说明了什么问题?
写出 Fisher线性判别函数,并说明其判别效率以及判别的显著性,
写出 Bayes判别函数,并说明其判别效率,
分别给出新申请人的 Fisher判别结果和
Bayes判别结果,
你对那个判别结果更有把握?
读书报告与实验报告( 2)
根据个人专业研究方向,选择聚类分析、判别分析和 Logistic回归 方面的应用文献三篇,按要求提交读书报告,
根据个人专业研究方向,利用聚类分析或判别分析或 Logistic判别 以及本专业数据,进行实证研究并按要求提交实验报告,