第 3 章
模糊模型识别
§ 3.1模糊模型识别
模型识别
已知某类事物的若干标准模型,现有这类事
物中的一个具体对象,问把它归到哪一模型,这
就是模型识别,
模型识别在实际问题中是普遍存在的,例如,
学生到野外采集到一个植物标本,要识别它属于
哪一纲哪一目;投递员 (或分拣机 )在分拣信件时
要识别邮政编码等等,这些都是模型识别,
模糊模型识别
所谓模糊模型识别,是指在模型识别中,模型
是模糊的,也就是说,标准模型库中提供的模型是
模糊的,
模型识别 的原理
为了能识别待判断的对象 x = (x1,x2,…,xn)T是
属于已知类 A1,A2,…,Am中的哪一类?
事先必须要有一个一般规则,一旦知道了 x的
值,便能根据这个规则立即作出判断,称这样的一
个规则为 判别规则,
判别规则往往通过的某个函数来表达,我们
把它称为 判别函数,记作 W(i; x).
一旦知道了 判别函数并确定了 判别规则,最
好将已知类别的对象代入检验,这一过程称为 回
代检验,以便检验你的 判别函数和 判别规则是否
正确,
§ 3.2 最大隶属原则
模糊向量的内积与外积
定义 称向量 a = (a1,a2,…,an)是模糊向量,其
中 0≤ai≤1,若 ai 只取 0或 1,则称 a = (a1,a2,…,an)是
Boole向量,
设 a = (a1,a2,…,an),b = (b1,b2,…,bn)都是模
糊向量,则定义
内积, a ° b = ∨ {(ak∧ bk) | 1≤k≤n};
外积, a⊙ b= ∧ {(ak∨ bk) | 1≤k≤n}.
内积与外积的性质
(a° b )c = a c⊙ b c ; (a⊙ b ) c = a c ° b c.
模糊向量集合族
设 A1,A2,…,An是论域 X上的 n个模糊子集,称
以模糊集 A1,A2,…,An为分量的模糊向量为 模糊
向量集合族,记为 A = (A1,A2,…,An).
若 X 上的 n个模糊子集 A1,A2,…,An的隶属函
数分别为 A1(x),A2(x),…,An(x),则定义模糊向量
集合族 A = (A1,A2,…,An)的隶属函数为
A(x) = ∧ {A1 (x1),A2 (x2),…,An(xn)}
或者
A(x) = [A1 (x1) + A2 (x2) + … + An(xn)]/n.
其中 x = (x1,x2,…,xn)为普通向量,
最大隶属原则
最大隶属原则 Ⅰ 设论域 X ={x1,x2,…,xn }
上有 m个模糊子集 A1,A2,…,Am(即 m个模型 ),构
成了一个标准模型库,若对任一 x0∈ X,有 k∈ {1,
2,…,m },使得
Ak(x0)=∨ {A1(x0),A2(x0),…,Am(x0)},
则认为 x0相对隶属于 Ak,
最大隶属原则 Ⅱ 设论域 X上有一个标准模
型 A,待识别的对象有 n个,x1,x2,…,xn∈ X,如果
有某个 xk满足
A(xk)=∨ {A(x1),A(x2),…,A(xn)},
则应优先录取 xk,
例 1 在论域 X=[0,100]分数上建立三个表示
学习成绩的模糊集 A=“优,,B =“良,,C =“差,,
当一位同学的成绩为 88分时,这个成绩是属于哪
一类?
?
?
?
?
?
??
??
?
??
?
.1 00901
,9080,
10
80
,800,0
)(
x
x
x
x
xA
A(88) =0.8
?
?
?
?
?
?
?
?
?
??
??
?
??
??
?
??
?;10095,0
,9585,
10
95
,8580,1
,8070,
10
70
,700,0
)(
x
x
x
x
x
x
x
xB
B(88) =0.7
?
?
?
?
?
??
??
?
??
?
.1 00800
,8070,
10
80
,700,1
)(
x
x
x
x
xC
A(88) =0.8,B(88) =0.7,C(88) =0,
根据最大隶属原则 Ⅰ,88 分这个成绩应隶属
于 A,即为, 优,,
例 2 论 域 X = {x1(71),x2(74),x3(78)}表示三
个学生的成绩,那一位学生的成绩最差?
C(71) =0.9,C(74) =0.6,C(78) =0.2,
根据最大隶属原则 Ⅱ, x1(71)最差,
例 3 细胞染色体形状的模糊识别
细胞染色体形状的模糊识别就是几何图形的
模糊识别,而几何图形常常化为若干个三角图形,
故设论域为三角形全体,即
X={?(A,B,C )| A+B+C =180,A≥B≥C}
标准模型库 ={E(正三角形 ),R(直角三角形 ),
I(等腰三角形 ),I∩R(等腰直角三角形 ),T(任意三
角形 )}.
某人在实验中观察到一染色体的几何形状,
测得其三个内角分别为 94,50,36,即待识别对象
为 x0=(94,50,36).问 x0应隶属于哪一种三角形?
先建立标准模型库中 各种三角形的隶属函数,
直角三角形的隶属函数 R(A,B,C)应满足下列
约束条件:
(1) 当 A=90时,R(A,B,C)=1;
(2) 当 A=180时,R(A,B,C)=0;
(3) 0≤R(A,B,C)≤1.
因此,不妨定义 R(A,B,C ) = 1 - |A - 90|/90,
则 R(x0)=0.955,
或者
?
?
?
?
?
?
??
?
?
?
?
?
??
.0,1
,0,
90
1),,(
1
p
p
p
CBAR
p其中 p = | A – 90|
则 R(x0)=0.54.
正三角形的隶属函数 E(A,B,C)应满足下列约
束条件:
(1) 当 A = B = C = 60时,E(A,B,C )=1;
(2) 当 A = 180,B = C = 0时,E(A,B,C)=0;
(3) 0≤E(A,B,C)≤1.
因此,不妨定义 E(A,B,C ) = 1 – (A – C)/180.
则 E(x0) =0.677,
或者
?
?
?
?
?
?
??
?
?
?
?
?
??
.0,1
,0,
180
1),,(
1
p
p
p
CBAE
p其中 p = A – C
则 E(x0)=0.02.
等腰三角形的隶属函数 I(A,B,C)应满足下列约
束条件:
(1) 当 A = B 或者 B = C时,I(A,B,C )=1;
(2) 当 A = 180,B = 60,C = 0时,I(A,B,C ) = 0;
(3) 0≤I(A,B,C )≤1.
因此,不妨定义
I(A,B,C ) = 1 – [(A – B)∧ (B – C)]/60.
则 I(x0) =0.766,
或者
?
?
?
?
?
?
??
?
?
?
?
?
??
.0,1
,0,
60
1),,(
1
p
p
p
CBAI
p
p = (A – B)∧ (B – C)
则 I(x0)=0.10.
等腰直角三角形的隶属函数
(I∩R)(A,B,C) = I(A,B,C)∧ R (A,B,C);
(I∩R) (x0)=0.766∧ 0.955=0.766.
任意三角形的隶属函数
T(A,B,C) = Ic∩Rc∩Ec= (I∪ R∪ E)c.
T(x0) =(0.766∨ 0.955∨ 0.677)c = (0.955)c = 0.045.
通过以上计算,R(x0) = 0.955最大,所以 x0应隶
属于直角三角形,
或者 (I∩R)(x0) =0.10; T(x0)= (0.54)c = 0.46,仍
然是 R(x0) = 0.54最大,所以 x0应隶属于直角三角形,
例 4 大学生体质水平的模糊识别,
陈蓓菲等人在福建农学院对 240名男生的体
质水平按, 中国学生体质健康调查研究, 手册上
的规定,从 18项体测指标中选出了反映体质水平
的 4个主要指标 (身高、体重、胸围、肺活量 ),根
据聚类分析法,将 240名男生分成 5类,A1(体质
差 ),A2(体质中下 ),A3(体质中 ),A4(体质良 ),A5
(体质优 ),作为论域 U(大学生 )上的一个标准模
型库,然后用最大隶属原则,去识别一个具体学生
的体质, 5类标准体质的 4个主要指标的观测数据
如下表所示,
身高 (cm) 体重 (kg) 胸围 (cm) 肺活量 (cm3)
A1 158.4± 3.0 47.9± 8.4 84.2± 2.4 3380± 184
A2 163.4± 4.8 50.0± 8.6 89.0± 6.2 3866± 800
A3 166.9± 3.6 55.3± 9.4 88.3± 7.0 4128± 526
A4 172.6± 4.6 57.7± 8.2 89.2± 6.4 4349± 402
A5 178.4± 4.2 61.9± 8.6 90.9± 8.0 4536± 756
现有一名待识别的大学生 x = {x1,x2,x3,x4 } =
{175,55.1,86,3900},他应属于哪种类型?
阈值原则
设论域 X ={x1,x2,…,xn }上有 m个模糊子集
A1,A2,…,Am(即 m个模型 ),构成了一个标准模
型库,若对任一 x0∈ X,取定水平 ?∈ [0,1].
若存在 i1,i2,…,ik,使 Aij(x0)≥? ( j =1,2,…,k),
则判决为,x0相对隶属于
..,,21 kiii AAA ???若 ∨ {A
k(x0)| k =1,2,…,m}< ?,则判决为:不
能识别,应当找原因另作分析,
该方法也适用于判别 x0是否隶属于 标准模型
Ak.若 Ak(x0)≥?,则判决为,x0相对隶属于 Ak; 若
Ak(x0)< ?,则判决为,x0相对不隶属于 Ak.
§ 3.3 择近原则
设在论域 X ={x1,x2,…,xn}上有 m个模糊子集
A1,A2,…,Am(即 m个模型 ),构成了一个标准模型
库, 被识别的对象 B也是 X上一个模糊集,它与标
准模型库中那一个模型最贴近?这是第二类模糊
识别问题,
先将模糊向量的内积与外积的概念扩充,
设 A(x),B(x)是论域 X上两个模糊子集的隶属
函数,定义
内积,A ° B = ∨ {A(x)∧ B(x) | x∈ X };
外积,A⊙ B= ∧ {A(x)∨ B(x) | x∈ X },
内积与外积的性质
(1) (A ° B )c = Ac⊙ Bc;
(2) (A⊙ B)c = Ac ° Bc;
(3) A ° Ac ≤1/2;
(4) A⊙ Ac ≥1/2.
证明 (1) (A° B)c = 1-∨ {A(x)∧ B(x) | x∈ X }
= ∧ {[1- A(x)]∨[ 1-B(x)] | x∈ X }
= ∧ {Ac(x)∨ Bc(x) | x∈ X }
= Ac⊙ Bc.
证明 (3) A° Ac =∨ {A(x)∧ [1- A(x)] | x∈ X }
≤∨ {1/2 | x∈ X }≤1/2.
下面我们用 ?(A,B)表示两个模糊集 A,B之间
的贴近程度 (简称 贴近度 ),贴近度 ?(A,B)有一些
不同的定义,
?0(A,B) = [A ° B + (1 -A⊙ B)]/2 (格贴近度 )
?1(A,B) = (A ° B )∧ (1- A⊙ B)
择近原则
设在论域 X = {x1,x2,…,xn}上有 m个模糊子集
A1,A2,…,Am构成了一个标准模型库,B是待识别
的模型,若有 k∈ {1,2,…,m},使得
? (Ak,B) =∨ {? (Ai,B) | 1≤i≤m},
则称 B与 Ak最贴近,或者说把 B归于 Ak类,这就是 择
近原则,
小麦品种的模糊识别 (仅对百粒重考虑 )
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
??
2
1 3.0
7.3
e x p)(
x
xA
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
??
2
2 3.0
9.2
e x p)(
x
xA
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
??
2
3 3.0
6.5
e x p)(
x
xA
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
??
2
4 3.0
9.3
e x p)(
x
xA
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
??
2
5 2.0
7.3
e x p)(
x
xA
?
?
?
?
?
?
?
?
?
?
?
?
?
? ?
??
2
28.0
43.3
e x p)(
x
xB
多个特性的择近原则
设在论域 X ={x1,x2,…,xn}上有 n个模糊子集
A1,A2,…,An构成了一个标准模型库,每个模型又
由个特性来刻划:
Ai =(Ai1,Ai2,…,Aim),i = 1,2,…,n,
待识别的模型 B=(B1,B2,…,Bm).
先求两个模糊向量集合族的贴近度:
si =∧ {?(Aij,Bj) | 1≤j≤m},i = 1,2,…,n,
若有 k∈ {1,2,…,n},使得
? (Ak,B) =∨ {si | 1≤i≤n},
则称 B与 Ak最贴近,或者说把 B归于 Ak类, 这就是
多个特性的择近原则,
贴近度的的改进
格贴近度的不足之处是一般 ?0(A,A)≠1.
定义 (公理化定义 )若 ?(A,B)满足
① ? (A,A)=1;
② ? (A,B)=? (B,A);
③ 若 A≤B≤C,则 ? (A,C)≤? (A,B)∧ ? (B,C).
则称 ? (A,B)为 A与 B的贴近度,
显然,公理化定义显得自然、合理、直观,避免了格
贴近度的不足之处,它具有理论价值,但是公理化定义并
未提供一个计算贴近度的方法,不便于操作,
于是,人们一方面尽管觉得格贴近度有缺陷,但还是
乐意采用易于计算的格贴近度来解决一些实际问题;另
一方面,在实际工作中又给出了许多具体定义 (P145).
离散型 ? ?
? ?
,
)()(
)()(
),(
1
1
1
?
?
?
?
?
?
?
n
k
kk
n
k
kk
xBxA
xBxA
BA?
连续型
? ?
? ?
,
d)()(
d)()(
),(
1
xxBxA
xxBxA
BA
?
?
??
??
??
??
?
?
??
离散型 ? ?
? ?
,
)()(
)()(2
),(
1
1
2
?
?
?
?
?
?
?
n
k
kk
n
k
kk
xBxA
xBxA
BA?
连续型
? ?
? ?
,
d)()(
d)()(2
),(
2
xxBxA
xxBxA
BA
?
?
??
??
??
??
?
?
??
离散型
,)()(
1
1),(
1
3 ?
?
???
n
k
kk xBxAnBA?
连续型
.d)()(
1
1),(3 xxBxABA ? ?
?
??
?
???
?
事实上,择近原则的核心就是最大隶属原则,
如在小麦品种的模糊识别 (仅对百粒重考虑 )中,
可重新定义, 早熟,,, 矮秆,,, 大粒,,
,高肥丰产,,, 中肥丰产, 的隶属函数,
重新定义, 早熟, 的隶属函数为
?
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
?? 1
3.0
7.3
e x p
2
1
),(
2
1
?
?
??A
重新定义, 矮秆, 的隶属函数为
?
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
?? 1
3.0
9.2
e x p
2
1
),(
2
2
?
?
??A
蠓的分类
左图给出了 9只 Af和 6只 Apf蠓的触角长和翼长
数据,其中, ●, 表示 Apf,“○,表示 Af.根据触角
长和翼长来识别一个标本是 Af还是 Apf是重要的,
① 给定一只 Af
族或 Apf族的蠓,如
何正确地区分它属
于哪一族?
② 将你的方法
用于触角长和翼长
分别为 (1.24,1.80),
(1.28,1.84),(1.40,2.04)
三个标本,
模糊判别方法
先将已知蠓重新进行分类,
当 ?= 0.919时,分为 3类 {1,2,3,6,4,5,7,8},
{9},{10,11,12,13,14,15},三类的中心向量分别
为 (1.395,1.770),(1.560,2.080),(1.227,1.927).
用平移极差变换
227.108.2
227.1
?
?
?
x
x
将它们分别变为
A1 = (0.200,0.637) (Af 蠓 ),
A2 = (0.390,1.000) (Af 蠓 ),
A3 = (0.000,0.821) (Apf 蠓 ),
再将三只待识别的蠓用上述变换分别变为
B1= (0.015,0.672),
B2 = (0.062,0.719),
B3 = (0.203,0.953 ).
采用贴近度
?3 (A,B) = ?
?
??
n
k
kk xBxAn
1
|)()(|
1
1
计算得:
?3(A1,B1) = 0,89,?3(A2,B1) = 0.65,?3(A3,B1) = 0.92.
?3(A1,B2) = 0.89,?3(A2,B2) = 0.69,?3(A3,B2) = 0.92,
?3(A1,B3) = 0.84,?3(A2,B3) = 0.88,?3(A3,B3) = 0.83.
? 根据择近原则及上述计算结果,第一只待识
别的蠓 (1.24,1.80)属于第三类,即 Apf 蠓;第二只
待识别的蠓 (1.28,1.84)属于第三类,即 Apf 蠓;第
三只待识别的蠓 (1.40,2.04)属于第二类,即 Af 蠓,
③ 设 Af是传粉益虫,Apf是某种疾病的载体,
是否应修改你的分类方法?若需修改,为什么?
DNA序列分类与模糊识别
2000网易杯全国大学生数学建模竞赛题:生
物学家发现 DNA序列是由四种碱基 A,T,C,G按一
定顺序排列而成,其中既没有, 断句,,也没有标
点符号,同时也发现 DNA序列的某些片段具有一定
的规律性和结构, 由此人工制造两类序列 (A类编
号为 1~ 10; B类编号为 11~ 20).
网址,www.mcm.edu.cn.
现在的问题是如何找出比较满意的方法来识
别未知的序列 (编号为 21~ 40),并判断它们那些
属于 A类,那些属于 B类,那些既不属于 A类又不属
于 B类,
(1) 已知类别 DNA序列的模糊分类
提取已知类别的 20个 DNA序列的 A,T,C,G的
百分含量构成如下矩阵,X = (xij)20× 4,其中 xi1,xi2,
xi3,xi4分别表示第个 DNA系列中的 A,T,C,G的百分
含量, 采用切比雪夫距离法建立模糊相似矩阵,然
后用传递闭包法进行聚类,动态聚类图如下,
(2) 确定最佳分类
将 20个已知 DNA序列分成如下 3类为最佳:
A1 ={1,2,3,5,6,7,8 9,10},
A2 ={4,17},
A3 ={11,12,13,14,15,16,18,19,20}.
建立标准模型库,A1,A2,A3.
(3) 未知 DNA序列的模糊识别
采用格贴近度公式:
?0(A,B) =[A ° B + (1 -A⊙ B)]/2,
将隶属于 A1的 DNA序列 归为 A类,隶属于 A3的 DNA序
列 归为 B类,隶属于 A2的 DNA序列 归为非 A,B类,