专题三 CRM中的数据管理
CRM的客户数据及数据库的构建
CRM数据仓库
CRM数据挖掘及数据挖掘技术
CRM的客户数据及数据库的构建
CRM的客户数据
客户数据类型描述性数据交易性数据促销性数据定位客户针对性促销产生交易
1、客户描述性数据是描述客户或消费者的基本信息的数据类型。
2、市场促销性数据市场促销数据主要包括促销活动类型、对促销活动的描述、促销媒体、促销时间、市场促销意图及相关的成本信息等。
3、客户交易数据是描述企业与客户相互作用的所有数据,
包括交易前、交易后和交易中的相关信息。
客户数据的隐私问题在当前法律与技术水平下,企业可采取的措施包括:
匿名身份信息
具体数据与汇总数据
信息用于市场定位或评估
合并数据源
匿名系统结构标识信息目的标识消费者具体信息标识目的标识姓名地址匿名数据分析防火墙客户
CRM数据库的构建
数据库发展简介
1963年,美国 Honeywell公司的 IDS(
Integrated Data Store)系统投入运行,揭开了数据库技术的序幕。
20世纪 70年代是数据库蓬勃发展的年代,
网状系统 和 层次系统 占据了整个数据库商用市场,而关系系统仅处于实验阶段。
20世纪 80年代,关系系统 由于使用简便以及硬件性能的改善,逐步代替网状系统和层次系统占领了市场。
20世纪 90年代,关系数据库已成为数据库技术的主流。进入 21世纪以后,无论是市场的需求还是技术条件的成熟,对象数据库技术
,网络数据库技术 的推广和普及已成定局。
数据库技术的基本术语
1、数据库 ( Database,简记为 DB) DB是 长期存储 在计算机内,有组织 的,可共享 的,统一管理 的相关数据的集合。
DB的特点:
数据按一定的数据模型组织、描述和储存;
可为各种用户共享;?冗余度较小
数据独立性较高;?易扩展
2、数据库管理系统 ( Database
Management System,简记为 DBMS)
DBMS是位于 用户与操作系统( OS)之间 的一层 数据管理软件,它为用户或应用程序提供访问 DB的方法,包括 DB的建立、查询、
更新及各种数据控制。
DBMS用途,
能够科学地组织和存储数据、高效地获取和维护数据用户
DBMS分类:
DBMS总是基于某种数据模型,可以分为
层次型;?网状型
关系型;?面向对象型等
3,数据库系统 ( Database System,简记为 DBS) DBS是实现有组织地、动态地存储大量关联数据、方便多用户访问的计算机 硬件,软件 和 数据资源 组成的系统,即它是采用数据库技术的计算机系统。具体包括:
计算机硬件
数据库
数据库管理系统
应用软件
数据库管理员
4,数据库技术 是研究数据库的 结构,
存储,设计,管理 和 使用 的一门 软件学科 。
客户数据库的建立
1、客户数据库的特点
( 1)动态的、整合的顾客数据管理和查询系统
( 2)基于数据库支持的顾客关系格式或结构系统
( 3)基于数据库支持的忠诚顾客识别系统
( 4)基于数据库支持的顾客购买行为参考系统
( 5)个性化服务
2、客户数据来源企业内部数据一年内无交易行为继续购买中流失客户继续来往客户 潜在客户整理测试 剔除企业外部数据交易信息营销信息基本信息交易信息营销信息基本信息客户数据库营销渠道客户
3、数据处理工作内容:
( 1) 数据管理:收集信息、将信息用数据表示并按类别组织保存;
收集和整理数据;?组织和保存数据
进行数据维护;
提供数据查询和数据统计功能。
( 2) 数据加工:对数据进行变换、抽取和运算;
( 3) 数据传播:在空间或时间上以各种形式传播信息,而不改变数据的结构、性质和内容;
注意:
数据管理 是 数据处理业务的基本环节,而且是任何数据处理业务中必不可少的共有部分。
应研制有效的数据管理软件,以减少程序员的负担。
数据处理是与数据管理相联系的,数据管理技术的优劣,将直接影响数据处理的效率。
4、建立客户数据库应注意的什么问题?

CRM的数据采集
( 1)定义商业问题
( 2)建立营销数据库
( 3)研究数据
( 4)为建模准备数据
( 5)建立模型
( 6)评价模型
( 7)展开模型获得结果
数据库的维护和更新应该做的工作是什么?
CRM数据 仓库
● 数据仓库 ( DW) 的概述
数据处理分为两类:
1,以操作为主要内容的操作性处理:对数据库联机的日常操作,通常是对记录的查询、修改、插入、删除等操作。
2,以分析决策为主要内容的分析型处理:用于决策分析,为管理人员提供决策信息。
为什么需要分离的数据仓库?
说明:
事务处理环境 不适合运行分析型的应用系统目的是提高两个系统的性能,操作数据库系统是为已知的任务和负载设计的,它的主要任务是联机事务处理 OLTP;而数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,在操作数据库系统上处理 OLAP
查询,可能会大大降低操作任务的性能,
数据仓库的定义以及特点
1、数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据的集合,数据仓库用来支持企业或组织的决策分析处理。
2、数据仓库的特点:
( 1)数据仓库是面向主题的
( 2)数据仓库是集成的,数据仓库的数据又来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成、统一与综合之后才能进入数据
( 3)数据仓库是不可更新的数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询,一般情况下并不需要对数据进行修改操作。
( 4)数据仓库是随时间而变化的
数据仓库中基本术语
1、数据集市是一个针对某个主题的经过与统计处理的部门级分析数据库,如销售数据集市,营销数据集市,库存集市和财务集市等。
2、元数据数据仓库中存放来自不同工作数据库系统的数据,记录原始数据的相关信息的数据称为元数据。
数据仓库的基本体系结构数据源抽取 装载刷新 清理数据仓库数据集市服务
OLAP
服务器
OLAP
服务器前端工具查询工具分析工具报表工具数据挖掘工具
OLTP和 OLAP的区别
用户和系统的面向性,
OLTP是面向顾客的,用于事务和查询处理
OLAP是面向市场的,用于数据分析
数据内容,
OLTP系统管理当前数据,
OLAP系统管理大量历史数据,提供汇总和聚集机制,
数据库设计,
OLTP采用实体 -联系 ER模型和面向应用的数据库设计,
OLAP采用星型或雪花模型和面向主题的数据库设计,
视图,
OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据
OLAP则相反,
访问模式,
OLTP系统的访问主要由短的原子事务组成,
这种系统需要并行和恢复机制,
OLAP系统的访问大部分是只读操作,
● CRM中的数据仓库
CRM与数据仓库的关系
CRM的业务整合需要数据仓库
数据清洁与集中需要数据仓库
数据分析需要数据仓库
数据仓库的作用
客户行为分析
重点客户发现
个性化服务
市场性能评估客户交叉销售增量销售客户保持潜在客户市场策略市场专家客户行为反馈产生市场机会市场机会客户关照流程处理市场机会客户关照过程
CRM业务逻辑客户信息生产系统客户行为其他相关数据
CRM数据仓库的系统结构数据仓库建设
OLAP&报表客户行为分组重点客户发现性能分析模板客户分析数据集市数据仓库分析数据准备
OLAP&报表市场专家调度调控运营分析等
● 数据仓库的实施
SYBASE 数据仓库在 大鹏证券的应用分析
市场背景
项目背景
数据仓库选型
解决方案
实施效果
CRM数据挖掘及数据挖掘技术
CRM的数据挖掘数据挖掘的含义
技术上的定义及含义数据挖掘( Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。
商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,
从中提取辅助商业决策的关键性数据。
数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识数据挖掘的方法
1、分类
2、估计
3、预测
4、组合或关联法则
5、聚类
6、描述和可视化间接的数据挖掘直接的数据挖掘商业领域的数据挖掘作为研究工具的数据挖掘;
改进生产过程的数据挖掘;
市场营销中的数据挖掘;
客户关系管理中的数据挖掘。
数据挖掘的互动循环过程数据挖掘的互动过程促成学习机制使用数据挖掘方法将数据转换成可执行的决策行动理解企业业务问题,
了解数据分析结果的价值体现领域按照决策采取行动评价工作成效,提出数据探索方面的建设性意见了解数据数据准备数据相关性前期探索模型构造模型评估与检验检验达到预定成功率?
确定分析和预测目标部署和应用预测变量相关性不准确基础数据不足或噪音太大是是否是
CRM
中应用数据挖掘的实施步骤数据挖掘在客户关系管理中的应用新客户的获取交叉销售增量销售客户保持实现一对一营销发现重点客户 —— 客户中的 VIP
从客户生命周期角度分析数据挖掘技术的应用不同阶段客户扮演的角色目标市场 新客户最初的客户高价值低价值高潜力自愿离开客户被迫离开的客户未来潜在客户 新客户 已确定客户流失客户其余 重获与客户生命周期息息相关的人生阶段目标市场回应的客户最初的客户高价 值低价值高潜力自愿离开客户被迫离开的客户未来潜在客户 回应的客户 已确定客户 流失客户争取客户的促销活动回应客户数据的取得真正客户的重要事件 反馈活动和收集活动激活

初次购买目标市场回应的客户最初的客户高价值低价值高潜力自愿离开客户被迫离开的客户未来潜在客户 回应的客户 已确定客户 流失客户不同客户生命周期阶段出现的数据
促销记录活动
已消费客户的人口数据
信用报告
自报信息
产品使用率
付账记录
对促销活动的反应
消费渠道偏好终止原因数据挖掘应用技术常见数据挖掘技术
人工神经网络
决策树
遗传算法
回归预测
贝叶斯分类
聚类分析
时间序列分析
基于案例的推理
Web数据挖掘
关联规则选择数据挖掘技术
1、根据数据挖掘目标选择数据挖掘技术
目标性数据挖掘
描述性数据挖掘
2、根据数据类型选择数据挖掘技术关联规则
关联规则的含义简单的说是在数据库和数据仓库中发现大量数据之间的有趣的相关联系。关联规则形式化的定义如下:
设 I={i1,i2,…,i m}是二进制文字的集合,其中的元素称为项。记 D为交易 T的集合,这里交易 T是项的集合,T?I 。对应每一个交易有唯一的标识,记作 TID。设 X是一个 I中项的集合,如果 X?T,则交易
T包含 X。一个关联规则就是一个形如 X?Y的蕴涵式,
这里 X?I,Y?I,并且 X∩Y=?。
关联规则的两个重要特性
1、置信度( Confidence),又称为正确率,描述关联规则的可靠程度。具体而言,规则 X?Y在交易集中的置信度是指包含 X和 Y的交易次数与包含 X的交易次数之比,记作 confidence( X?Y)。
2、支持度( Support),又称覆盖率,描述关联规则的适用范围。具体而言,规则 X?Y在交易集中的支持度是指交易集中同时包含 X和 Y的交易次数与所有交易次数之比,记作 support( X?Y)。
举例:
记录号 购物清单
1
2
3
4
5
啤酒、尿布、婴儿爽身粉、面包、雨伞尿布、婴儿爽身粉啤酒、尿布、牛奶啤酒、尿布、洗衣粉啤酒、牛奶、可乐上表中,共发生交易 5次,即 T1,T2,T3,T4,T5
交易中的商品设为项,即啤酒为 X1,尿布为 X2,婴儿爽身粉为 X3,面包为 X4,牛奶为 X5,洗衣粉为 X6,可乐为 X7。
问题:
超市经理想知道商品之间的关联,要求列出哪些同时购买的,且支持度 ≥ 0.4 的商品名称。
单项统计结果单项统计 支持度啤酒尿布婴儿爽身粉牛奶
0.8
0.8
0.4
0.4
双项统计 支持度啤酒,尿布啤酒,牛奶尿布,婴儿爽身粉
0.6
0.4
0.4
双项统计结果得出如下规则:
R1:啤酒?尿布,S=0.6,C=0.6/0.8=0.75
R2,尿布?啤酒,S=0.6,C=0.6/0.8=0.75
R3,牛奶?啤酒,S=0.4,C=0.4/0.4=1
R4:啤酒?牛奶,S=0.4,C=0.4/0.8=0.5
R5:尿布?婴儿爽身粉,S=0.4,C=0.4/0.8=0.5
R6,婴儿爽身粉?尿布,S=0.4,C=0.4/0.4=1
关联规则的支持度与置信度的实际意义置信度低 置信度高支持度低 关联规则很少正确,
而且很少被使用关联规则在多数情况下是正确的,但是很少被使用支持度高 关联规则很少正确,
但可以经常被使用关联规则在多数情况下是正确的,但可以经常被使用关联规则的支持度与置信度注:
参考书目,Jiawei Han and Micheline
Kamber 的,数据挖掘 —— 概念与技术,
决策树
举例:
有一群人,描述这群人的属性有年龄,年收入,学历。
D
C2C1
年龄年收入
B2 B4B3B1
B1 B1 B1 B1B1 B1 B1
学历
决策树
一个树性的结构
内部节点上选用一个属性进行分割
每个分叉都是分割的一个部分
叶子节点表示一个分布
决策树生成算法分成两个步骤
树的生成
决策树的建立过程
开始,数据都在根节点
递归的进行数据分片
树的修剪去掉一些可能是噪音或者异常的数据
决策树使用,对未知数据进行分割
按照决策树上采用的分割属性逐层往下,直到一个叶子节点
停止分割的条件
一个节点上的数据都是属于同一个类别
没有属性可以再用于对数据进行分割
属性选择的统计度量
信息增益 —— Information gain (ID3/C4.5)
所有属性假设都是种类字段经过修改之后可以适用于数值字段解释,ID3算法源于概念学习系统,是在 20世纪 70年代末由 J.Ross Quinlan 提出的最早的决策树算法之一,是面向离散变量最经典的构建决策树的算法。
基尼指数 —— Gini index (IBM
IntelligentMiner)能够适用于种类和数值字段熵( Entropy)的基本概念熵的概念是由 德国 物理学 家 克劳伊士 于 1865年 所提出。 1948年由 克劳德 〃 艾尔伍德 〃 香农 第一次引入到 信息论 中来。
熵在信息论的定义如下:
如果有一个系统 S内存在多个事件 S = {E1,...,En},
每个事件的概率分布 P = {p1,...,pn},
则每个事件本身的信息为
Ie = - logpi
整个系统的平均信息量为信息增益度度量 (ID3/C4.5)
任意样本分类的期望熵值:
H(X)=H(x1,x2,……,x n)=- ∑ Pi log2(pi) (i=1到 n)
注,∑( i从 1到 m)
其中,数据集为 X,n为 X的分类数目,
Pi≈│X i│ /│X│
Ci为某分类标号,Pi为任意样本属于 Ci的概率,xi为分类 Ci上的样本数
假设属性 A具有 m个不同的值。相应地,可以用属性 A
将数据集划分为 m个子集( X1,X2,… Xm ),其中集合
Xj 中包含 A中所有在属性 A上取值 Aj 的数据样本。
记 xij是子集 Xj中属于 Ci类的样本数。此时对应于属性 A分类的信息熵值可以用下式来计算
H( X/A) =∑[( x1j+ x2j+…+ xnj )/x× H(x1j,x2j,…,x nj)]
注,∑ ( j从 1到 m)
属性 A对于分类提供的信息增益则为:
信息增益,Gain(A)=I(X ; A)= H( X) -
H(X/A)
应用规则:
对于测试属性 A的信息增益越高,说明选择的测试属性
A对于分类提供的信息越大,选择 A之后对分类的不确定程度越小,因此,必须选择具有最高增益的属性为下一分类的测试属性。
具体步骤如下:
( 1)令决策树 T的初始状态只有一个根( X,Q),
其中是 X训练样本集合,Q是测试属性集合;
( 2)判断中的所有叶节点( X’,Q ’ )的状态,如果满足一下条件之一,则停止执行 ID3算法,
得到最终结果 T;
介绍 ID3算法
集合 X’ 中的训练实例都属于同一类;
测试属性集 Q ’ 为空,即没有剩余属性可用来进一步划分样本;
( 3)否则,选取一个不具有步骤( 2)所述状态的叶节点( X’,Q ’ ),使用信息增益的基于熵的度量做为启发信息,从 Q ’ 中选择最好地将样本分类的测试属性;
( 4)基于该测试属性的所有取值都创建一个分支,
并据此划分样本,生成新节点。同时对于新生成的节点而言,对应的测试属性集将设为其父节点的测试属性集减去当前的测试属性后的所得。
( 5)转步骤( 2),递归地执行算法。
举例假设要为一家银行构建一个 CRM系统,
其中一项主要功能是需要通过对企业客户的经营状态、经济利润以及历年销售情况的分析来决定银行对该企业的信贷策略以及信贷力度。
数据列表如下:
企业 固定资产 (万元 ) 销售利润率 历年信贷信誉 是否给与贷款
A
B
C
D
E
F
G
H
I
J
K
2300
6000
560
1500
870
1100
3400
4120
1390
390
1200
12%
23%
3%
8.2%
13.1%
1.5%
6.2%
14.7%
2.7%
4.2%
7%
差差差很好很好很好很好一般一般一般差是是是是是是否否否否否
1、属性:固定资产、销售利润率、历年信贷信誉、
是否给与贷款,其中“是否给与贷款”是类的标号属性;
2、样本集合 X由两个不同的类组成,即 X=(C1,C2),
其中 C1 包括 6个样本,而 C2包括了 5个样本,计算样本集合 X分类的期望熵值:
H(X)=H(x1,x2,…… x 11)= - ∑P i log2(pi)=-6/11
log2(6/11) -5/11 log2(5/11) =0.994
3、计算对应的每一个属性的信息熵值
( 1)固定资产排序,390,560,870,1100,1200,1390,1500,
2300,3400,4120,6000
固定资产划分为,1000万元以下,1000-5000万元,
5000万元以上。
1000万元以下:
x11=0,x21=3,H(x11,x21)=0
1000-5000万元
x12 =5,x22 =2,H (x12,x22)=0.863
5000万元以上。
x13 =1,x23 =0,H (x13,x23)=0
根据公式得:
H(X/A)=3/11 H(x11,x21)+5/11 H (x12,
x22)+1/11 H (x13,x23)=0.549
计算固定资产对分类提供的信息增益为,I(X;A)=H(X)-( H/A) =0.445
( 2)销售利润率排序,1.5%,2.7%,3%,2.2%,6.2%,5,7%
,8.2%,12%,13.1%,14.7%,23%
将销售利润划分为 5%以下,
5~10%,,10~15% 和 15%以上
5%以下
x11=2,x21=2,H(x11,x21)=1
5~10%
x12= 1,x22= 2,H(x12,x22)=
10~15%
x13=2,x23=1,H(x13,x23)=
15%以上
x14=1,x24=0,H(x14,x24)=0
计算销售利润对分类提供的信息增益为,I(X;B)=H(X)-( H/B) =0.1295
( 3)历年信誉被部分为三个档次:差,一般,很好,算法同上得:
计算销售利润对分类提供的信息增益 I(X;C)=H(X)-
( H/C) =0.63
将历年信誉作为测试属性,进行分支:
历年信誉差否好是否一般是通过初步分类后,样本量剩余 4个
“是”的样本为 2,“否”的样本为 2,则 H(X)=1
进一步计算信息增益:
I(X;B)=H(X)-H(X/B)=1
I(X;C)=H(X)-H(X/C)=0.541
将销售利润作为测试属性,进一步划分,
历年信誉度销售利润率否 否 是 是
5%以下或
5%~10%
10%~15%或
15以上一般 好差最后产生分类规则集
( 1) IF企业“历年信誉度” =,好” THEN银行可以给予贷款
( 2) IF企业“历年信誉度” =,差” THEN银行不可以给予贷款
( 3) IF企业“历年信誉度” =,一般” AND,销售利润率” =“<5%”THEN 银行不可以给予贷款
( 4) IF企业“历年信誉度” =,一般” AND,销售利润率” =
“5%~10%”THEN 银行不可以给予贷款
( 5) IF企业“历年信誉度” =,一般” AND
,销售利润率” =“10~15%”THEN 银行可以给予贷款
( 6) IF企业“历年信誉度” =,一般” AND
,销售利润率” =“>15%”THEN 银行可以给予贷款人工神经网络一、人类对人工智能的研究分两种方式,且对应着两种不同的技术:
其一:传统的人工智能技术 —— 心理角度模拟;
其二:基于人工神经网络的技术 —— 生理角度模拟。
二、人工神经网络的概述( Artificial Neutral
Network)
(一)定义人工神经网络是一并行、分布处理结构,它由处理单元及称为联接的无向信号通道互连而成。这些处理单元具有局部内存,并可以完全局部操作。
每个处理单元有一个单一的输出联接,这个输出可以根据需要被分支成希望个数的许多并行联接,且这些并行联接都有输出相同的信号,即相应处理单元的信号,信号的大小不因分支的多少而变化。处理单元的输出信号可以是任何需要的数学模型,
每个处理单元中进行的操作必须是完全局部的。也就是说,它必须紧紧依赖于经过输入联接到达处理单元的所有输入信号的当前值和存储在处理单元局部内存中的值。
(二) PDP人工神经网络的基本构成要素
1、一组处理单元;
2、处理单元的激活状态( ai);
3、每个处理单元的输出函数 (fi);
4、处理单元之间的连接模式;
5、传递规则 (?wijOi);
6、把处理单元的输入以及当前状态结合起来产生激活值的激活规则 (Fi);
7、通过经验修改联接强度的学习规则;
8、系统运行的环境(样本集合)。
(三) PDP模型下的人工神经网络模型如下:
x1
w1i
x2 w2i
…..
xn
wni
neti=? xj wji
ai= Fi(ai,neti)
Oi=f(ai)
(四)神经网络的基本属性
1、非线性
2、全局性
3、时变性
4、多样性三、人工神经网络的基础
(一)生物神经系统的六个基本特征
( 1)神经元及其联接
( 2)神经元之间的连接强度决定信号的传递强弱
( 3)神经元之间的连接强度是可以所训练而改变的
( 4)信号可以是起刺激作用,也可以期到抑制作用
( 5)一个神经元接受信号的累计效果决定神经元的状态
( 6)每个神经元可以有一个“阈值”
(二)人工神经元的基本构成
X=(x1,x2,x3,…,x n)—— 输入变量
W=(w1,w2,w3,…,w n)—— 联接权向量
net=? xi wi—— 神经元的输入信号的累计效果,即神经元的网络输入
(三)激活函数
o=f(net)
类型:
1、线性函数
2、非线性斜面函数
3、阈值函数 /阶跃函数
4,s性函数 /压缩函数 /逻辑斯特函数
(四) M-P模型
net=XW o=f(net)
x1 w1
x2
w2

xi
wi
销售利润拖欠贷款三、人工神经元的决策举例:银行是否给予企业贷款条件:企业当年销售利润为 8000万,当前拖欠贷款
4000万。
第一步:将数值标准化 0-1之间的数字,标准化后分别为,0.8和 0.4
第二步:计算权值; 第三步:计算网络的输出
0.8
0.4
第四步:与给定阈值相比较,大于阈值,则被激活,
即可以贷款,否则,不予贷款注意:
1、采用何种神经元网络拓扑结构
2、如何确定阈值,权值和激活函数聚类分析
聚类分析概述
研究目的:
就是把相似的对象归并成类,研究的主要内容是如何度量相似性以及怎样构造聚类的具体方法以达到分类的目的。
研究对象:
对样品进行分类,即从实际问题中 观测得到 n个样品 Xi,i=1,2,…,n,要根据某相似性原则,将这 n
样品进行分类;
二是对指标进行分类,即对所考察的 p个指标
X=(x1,x2,…,x p)’,根据 n个观测值 Xi=(xi1,xi2,…,
xip)’,i=1,2,…,n,要由某相似原则将这 p个指标 x1,
x2,…,x p进行分类。
与回归分析,判别分析并称为多元分析的三大方法。
聚类分析的方法
相似性度量假设所考察的问题有 p项指标 X=(x1,x2,…,x p)’,
仅得到 n个观测值 Xi=(xi1,xi2,…,x ip)’,记
X1/ x11,x12,…,x 1p
X= X2/ = x21,x22,…,x 2p
XN/ xn1,xn2,…,x np n× p
样本数据矩阵
1、样本间的相似量常用样品之间的距离来衡量样品间的相似程度
( 1)对距离进行定义如果样品 Xi和 XJ的函数满足 diJ =d(Xi,XJ),
diJ?0,对一切 Xi,XJ ;当且仅当 Xi=XJ时,
有 diJ =0;
diJ = dJ i;
对于样品 Xi,XJ,Xk,有 diJ? dik+dJk
则称 diJ是样品 Xi和 XJ之间的距离。
( 2)距离的类型
欧几里德 距离 —— 计算两点之间的几何距离
d(i,j)=[(xi1-xJ1)2+ (xi2-xJ2)2 +…+ (x ik-xJk)2]1/2
其中,i=(xi1,xi2,…,x ik)和 j= (xJ1,xJ2,…,x Jk)是两个 k维的数据对象
马氏距离
B-模距离
闵可夫斯基距离
2、指标间的相似度量
指标的分类一是间隔尺度,指标可以用连续的数值来表示,例如长度,直径等;
二是有序尺度,指标可以只可以用有序的等级号来描述,而没有明确的数量表示,如评价酒的等级分为好,
中,次等;
三是名义尺度,指标即不能用数量表示,也没有次序关系,这时往往给以数字符号予以区别,如人的职业分为工人,干部,教师等。
间隔尺度指标的度量;
对有序尺度指标度量;
对名义尺度指标度量。
系统聚类法( Hierarchical Clustering
Methods)
1,基本思想,先将每个研究对象(样品或指标各自看成一类,按某种顺序分别称做第 1,第 2,…,第 h
类(如果对象是样品,则 h=n;如果对象是指标,则
h=p);然后根据对象间的相似度量,将 h类中最相似的两类合并,组成一个新类,这样 得到 h-1类,再在这 h-1类中找出最相似的两类合并,得到 h-2类,如此下去,直至将所有的对象并成一个大类为止。
2,系统聚类法的具体步骤:
构造 n个类,每一类只包含一个样品;
计算 n个样品两两之间的距离 diJ,记作
D(0)=(diJ (0)) n?n
合并距离最近的两类为一新类,称做第 n+1类,并取消刚合并的那两类,这样 得到 n-1类。
计算新类与剩余各类的距离,其他各类间距离不变,
得到降一阶的新距离矩阵
D(1)=(diJ (1)) ( n-1)?( n-1),若类的个数等于 1,则转到步骤( 5);否则,回到步骤( 3)
画聚类图
决定类的个数和类
3,常见两类之间的“距离”或“相似系数”(以样品为例),
设 Gr与 Gs为两类,以 diJ表示 Gr类中第 i个样品与类 Gs
中的第 j个样品之间的距离则,D1(r,s)=min{diJ | i? Gr,j? Gs}为类 Gr与 Gs之间的最短距离;
D2(r,s)=max{diJ | i? Gr,j? Gs}为类 Gr与 Gs之间的最长距离;
D3(r,s)=1/nrns diJ 为 Gr与 Gs之间的类平均距离,其中 nr,ns 分别为 Gr,Gs包含的样品个数; i? Gr j? Gs
D4(r,s)=d(Gr,Gs)为 Gr与 Gs之间的类重心距离,其中 d(Gr,Gs)表示 Gr与 Gs的重心之间的距离。
4,具体方法
( 1)最短距离法
( 2)最长距离法
( 3)类平均法举例:现有 5个样品,每个只有一个指标,它们分别是 1,2,3,4.5,6,8
求解:
将 5个样品各级为一类:
G1={1},G2 ={2},G3={4.5},
G4={6},G5 ={8}
计算两类之间的距离,利用欧氏距离,
D(0)= 01 0
3.5 2.5 0
5 4 1.5 0
7 6 3.5 2 0
1 2 3 4 5 1
2
3
4
5
(3)找出最小者 d12=1,所以合并 G1 和 G2,
为新类
( 4)利用最短距离
G6 ={1,2},G3={4.5},G4={6},G5 ={8}
算出新类与剩余各类的距离,得
d36= D1 (3,6)=min{d13,d23}=min{3.5,2.5}= 2.5
d46= D1 (4,6)=min{d14,d24}=min{5,4}= 4
d56= D1 (5,6)=min{d15,d25}=min{7,6}
= 6
0
D(1)= 1.5 0
3.5 2 0
2.5 4 6 0
重复第 3步 寻找最小值得,d34=1.5
3 4 5 6
3
4
5
6
G6 ={1,2},G7={4.5,6},G5 ={8}
算出新类与剩余各类的距离,得
d57= D1 (5,7)=min{d35,d45}=min{3.5,2}= 2
d67= D1 (6,7)=min{d36,d46}=min{2.5,4}= 2.5
0
6 0
2 2.5 0
D(2)=
5 6 7
5
6
7
重复第 3步 寻找最小值得,d57=2,得:
G6 ={1,2},G8={4.5,6,8}
算出新类与剩余各类的距离,得
d68= D1 (6,8)=min{d56,d76}=min{6,2.5}= 2.5
最后,将 G6和 G8合并成为一大类 G9,整个聚类过程结束。
0
2.5 0D
(3)=
6 8
6
8
画出聚类图:
6
9
87
2 1 4 3 5
一般画图的两个约定:
( 1)当两个样品合并时,具有较大序号者放在左侧;
当两个不同的相似水平的类合并时,相似水平高的放在左侧;
( 2)当一个样品与一个较高相似水平的合并时,较高水平的类放在左侧。
最后一步,决定类的个数和类,如果取距离的临界值
2.2,则应聚为两大类 G6和 G8,
,其中 G6含样品 1,2,G8含样品 3,4,5。