第 4章 关系数据库设计理论
?问题的提出
– 关系数据库的基本概念
– 关系模型
– 关系数据库的标准语言
– 关系数据库逻辑设计
? 针对一个具体问题, 应如何构造一个适合
于它的数据模式, 即应该构造几个关系,
每个关系由哪些属性组成等 。
? 数据库逻辑设计的工具 ──关系数据库的
规范化理论
第 4章 关系数据库设计理论
4.1 数据依赖
4.2 范式
4.3 关系模式的规范化
第 4章 关系数据库设计理论
4.1 数据依赖
4.2 范式
4.3 关系模式的规范化
4.1 数据依赖
内容提要
?什么是数据依赖
?数据依赖对关系模式有什么影响
?数据依赖的形式化定义
4.1 数据依赖
4.1.1 关系模式中的数据依赖
4.1.2 数据依赖对关系模式的影响
4.1.3 有关概念
4.1 数据依赖
4.1.1 关系模式中的数据依赖
4.1.2 数据依赖对关系模式的影响
4.1.3 有关概念
4.1.1 关系模式中的数据依赖
一、概念回顾
二、关系模式的形式化定义
三、什么是数据依赖
四、关系模式的简化表示
一、概念回顾
? 关系,描述实体及其属性、实体间的联系。
– 从形式上看,它是一张二维表,是所涉及属
性的笛卡尔积的一个子集。
? 关系模式,用来定义关系。
? 关系数据库,基于关系模型的数据库,利用关
系来描述现实世界。
– 从形式上看,它由一组关系组成。
? 关系数据库的模式,定义这组关系的关系模式
的全体。
二、关系模式的形式化定义
关系模式由五部分组成,即它是一个五元组,
R(U,D,DOM,F)
R,关系名
U,组成该关系的属性名集合
D,属性组 U中属性所来自的域
DOM:属性向域的映象集合
F,属性间数据的依赖关系集合。即限定
了组成关系的各个元组必须满足的完
整性约束条件 。
三、什么是数据依赖
1,完整性约束的表现形式
?限定属性取值范围:例如学生成绩必须
在 0-100之间
?定义属性值间的相互关连(主要体现于
值的相等与否),这就是数据依赖,它
是数据库模式设计的关键 。
什么是数据依赖(续)
2,数据依赖
?是通过一个关系中属性间值的相等与否
体现出来的数据间的相互关系
?是现实世界属性间相互联系的抽象
?是数据内在的性质
?是语义的体现
什么是数据依赖(续)
3,数据依赖的主要类型
?函数依赖( Functional Dependency,简
记为 FD)
?多值依赖( Multivalued Dependency,简
记为 MVD)
?连接依赖
四、关系模式的简化表示
● 在关系模式 R(U,D,DOM,F)中,影响数
据库模式设计的主要是 U和 F,D和 DOM
对其影响不大,为了方便讨论,我们将
关系模式简化为一个三元组,
R(U,F)
● 当且仅当 U上的一个关系 r满足 F时,r称
为关系模式 R(U,F)的一个关系。
5.1 数据依赖
5.1.1 关系模式中的数据依赖
5.1.2 数据依赖对关系模式的影响
5.1.3 有关概念
5.1.2 数据依赖对关系模式的影响
例:建立一个描述学校的数据库。
涉及的对象包括,
学生的学号( Sno)
所在系( Sdept)
系主任姓名( Mname)
课程名( Cname)
成绩( Grade)
数据依赖对关系模式的影响(续)
假设学校的数据库模式由一个单一的关
系模式 Student构成,
则该关系模式的属性集合为,
U ={ Sno,Sdept,Mname,Cname,Grade }
数据依赖对关系模式的影响(续)
现实世界的已知事实告诉我们,
⒈ 一个系有若干学生,但一个学生只属于一
个系;
⒉ 一个系只有一名主任;
⒊ 一个学生可以选修多门课程,每门课程有
若干学生选修;
⒋ 每个学生所学的每门课程都有一个成绩。
数据依赖对关系模式的影响(续)
由此可得到属性组 U上的一组函数依赖 F,
F ={ Sno → Sdept,Sdept → Mname,
(Sno,Cname) → Grade }
Sno Cname
Sdept Mname
Grade
数据依赖对关系模式的影响(续)
关系模式 Student<U,F>中存在的问题,
⒈ 数据冗余太大
– 浪费大量的存储空间
例:每一个系主任的姓名重复出现,重复次数
与该系所有学生的所有课程成绩出现次数相同。
数据依赖对关系模式的影响(续)
⒉ 更新异常( Update Anomalies)
– 数据冗余, 更新数据时,维护数据完整性
代价大。
例:某系更换系主任后,系统必须修改与该系
学生有关的每一个元组。
数据依赖对关系模式的影响(续)
⒊ 插入异常( Insertion Anomalies)
– 该插的数据插不进去
例,如果一个系刚成立,尚无学生,我们就无
法把这个系及其系主任的信息存入数据库。
数据依赖对关系模式的影响(续)
⒋ 删除异常( Deletion Anomalies)
– 不该删除的数据不得不删
例,如果某个系的学生全部毕业了,我们在删
除该系学生信息的同时,把这个系及其系主任
的信息也丢掉了。
数据依赖对关系模式的影响(续)
结论,Student关系模式不是一个好的模式。
– 一个“好”的模式应当不会发生插入异常、
删除异常、更新异常,数据冗余应尽可能少。
原因,由存在于模式中的某些数据依赖引起的。
解决方法,通过分解关系模式来消除其中不合适
的数据依赖。
数据依赖对关系模式的影响(续)
规范化理论 正是用来改造关系模式,通
过分解关系模式来消除其中不合适的数
据依赖,以解决插入异常、删除异常、
更新异常和数据冗余问题。
5.1 数据依赖
5.1.1 关系模式中的数据依赖
5.1.2 数据依赖对关系模式的影响
5.1.3 有关概念
5.1.3 有关概念
一、函数依赖
二、平凡函数依赖与非平凡函数依赖
三、完全函数依赖与部分函数依赖
四、传递函数依赖
五、码
一、函数依赖
定义 5.1 设 R(U)是一个属性集 U上的关系模
式,X和 Y是 U的子集。若对于 R(U)的任
意一个可能的关系 r,r中不可能存在两
个元组在 X上的属性值相等,而在 Y上的
属性值不等,则称,X函数确定 Y”或
,Y函数依赖于 X”,记作 X→Y。 X称为
这个函数依赖的 决定属性集 (Determinant)。
函数依赖(续)
说明,
1,函数依赖不是指关系模式 R的某个或某些关系
实例满足的约束条件,而是指 R的所有关系实
例均要满足的约束条件。
2,函数依赖是语义范畴的概念。只能根据数据的
语义来确定函数依赖。
例如“姓名 →年龄”这个函数依赖只有在不允
许有同名人的条件下成立
函数依赖(续)
3,数据库设计者可以对现实世界作强制的规定。
例如设计者可以强行规定不允许同名人出现,
因而使函数依赖“姓名 →年龄”成立。但所插
入的元组必须满足规定的函数依赖,若发现有
同名人存在,则拒绝装入该元组。
4,若 X→Y,并且 Y→X,则记为 X←→Y 。
5,若 Y不函数依赖于 X,则记为 X─→Y。
函数依赖(续)
例, Student(Sno,Sname,Ssex,Sage,Sdept)
假设不允许重名,则有,
Sno → Ssex,Sno → Sage
Sno → Sdept,Sno ←→ Sname
Sname → Ssex,Sname → Sage
Sname → Sdept
但 Ssex →Sage,Ssex →Sdept,
二、平凡函数依赖与非平凡函数依赖
定义 5.2 在关系模式 R(U)中,对于 U的子集
X和 Y,如果 X→Y,但 Y ? X,则称
X→Y是 非平凡的函数依赖 。若 X→Y,
但 Y ? X则称 X→Y是 平凡的函数依赖 。
例:在关系 SC(Sno,Cno,Grade)中,
非平凡函数依赖,(Sno,Cno) → Grade
平凡函数依赖,(Sno,Cno) → Sno
(Sno,Cno) → Cno
平凡函数依赖与非平凡函数依赖(续)
– 对于任一关系模式,平凡函数依赖都
是必然成立的,它不反映新的语义,
因此若不特别声明,我们总是讨论非
平凡函数依赖 。
三、完全函数依赖与部分函数依赖
定义 5.3 在关系模式 R(U)中,如果 X→Y,
并且对于 X的任何一个真子集 X’,都有
X’ Y,则称 Y完全函数依赖于 X,记作
X f Y。若 X→Y,但 Y不完全函数依赖
于 X,则称 Y部分函数依赖 于 X,记作
X P Y。
完全函数依赖与部分函数依赖(续)
例, 在关系 SC(Sno,Cno,Grade)中,有,
由于,Sno →Grade,Cno → Grade,
因此,(Sno,Cno) f Grade
但,
(Sno,Cno) P Sno,(Sno,Cno) P Cno
完全函数依赖与部分函数依赖(续)
– 非平凡函数依赖必定是部分函数依赖
– 平凡函数依赖也可能是部分函数依赖
例, Student(Sno,Sname,Ssex,Sage,Sdept)
Sno f Sname,Sno f Ssex,Sno f Sage,
Sno f Sdept
(Sno,Sname) P Sdept,(Sno,Ssex) P Sdept
四、传递函数依赖
定义 5.4 在关系模式 R(U)中,如果 X→Y,Y→Z,
且 Y ?X,Y→X,则称 Z传递函数依赖 于 X。
注, 如果 Y→X,即 X←→Y,则 Z直接依赖 于 X。
例, 在关系 Std(Sno,Sdept,Mname)中,有,
Sno → Sdept,Sdept → Mname,Mname传递
函数依赖于 Sno。
五、码
定义 5.5 设 K为关系模式 R<U,F>中的属性或属性
组合。若 Kf U,则 K称为 R的一个 侯选码
( Candidate Key)。若关系模式 R有多个候选
码,则选定其中的一个做为 主码 ( Primary
key)。
? 码是关系模式中一个重要概念。
– 候选码能够唯一地标别关系的元组,是关系
模式中一组最重要的属性。
– 主码又和外部码一起提供了一个表示关系间
联系的手段 。
第 4章 关系数据库设计理论
4.1 数据依赖
4.2 范式
4.3 关系模式的规范化
4.2 范式
4.2.1 第一范式( 1NF)
4.2.2 第二范式( 2NF)
4.2.3 第三范式( 3NF)
4.2.4 BC范式( BCNF)
4.2.5 多值依赖与第四范式( 4NF)
4.2 范式
? 范式是符合某一种级别的关系模式的集合。
? 关系数据库中的关系必须满足一定的要求。满
足不同程度要求的为不同范式。
? 范式的种类,
第一范式 (1NF)
第二范式 (2NF)
第三范式 (3NF)
BC范式 (BCNF)
第四范式 (4NF)
第五范式 (5NF)
范式(续)
?各种范式之间存在联系,
?某一关系模式 R为第 n范式,可简记
为 R∈ nNF。
NF5NF4B C N FNF3NF2NF1 ?????
4.2 范式
4.2.1 第一范式( 1NF)
4.2.2 第二范式( 2NF)
4.2.3 第三范式( 3NF)
4.2.4 BC范式( BCNF)
4.2.5 多值依赖与第四范式( 4NF)
4.2.1 第一范式( 1NF)
? 1NF的定义
定义 5.6 如果一个关系模式 R的所有属性都是
不可分的基本数据项,则 R∈ 1NF。
? 第一范式是对关系模式的最起码的要求。不满
足第一范式的数据库模式不能称为关系数据库。
? 但是满足第一范式的关系模式并不一定是一个
好的关系模式。
第一范式(续)
例, 关系模式 SLC(Sno,Sdept,Sloc,Cno,Grade)
Sloc为学生住处,假设每个系的学生住在同一
个地方。
? 函数依赖包括,
(Sno,Cno) f Grade
Sno → Sdept
(Sno,Cno) P Sdept
Sno → Sloc
(Sno,Cno) P Sloc
Sdept → Sloc
第一范式(续)
? SLC的码为 (Sno,Cno)
Sno
Cno
Grade
Sdept
Sloc
SLC
第一范式(续)
? 结论,
1,SLC满足第一范式。
2,非主属性 Sdept和 Sloc部分函数依赖于码 (Sno,Cno)。
? SLC存在的问题
(1) 插入异常
假设 Sno= 95102,Sdept= IS,Sloc= N的学生还未
选课,因课程号是主属性,因此该学生的信息无法
插入 SLC。
第一范式(续)
(2) 删除异常
假定某个学生本来只选修了 3号课程这一门
课。现在因身体不适,他连 3号课程也不选
修了。因课程号是主属性,此操作将导致该
学生信息的整个元组都要删除。
(3) 数据冗余度大
如果一个学生选修了 10门课程,那么他的
Sdept和 Sloc值就要重复存储了 10次。
第一范式(续)
(4) 修改复杂
例如学生转系,在修改此学生元组的 Sdept
值的同时,还可能需要修改住处( Sloc)。
如果这个学生选修了 K门课,则必须无遗漏
地修改 K个元组中全部 Sdept,Sloc信息。
因此 SLC不是一个好的关系模式。
第一范式(续)
? 原因
Sdept,Sloc部分函数依赖于码。
? 解决方法
采用投影分解法,把 SLC分解为两个关系模式,
以消除这些部分函数依赖。
SC( Sno,Cno,Grade)
SL( Sno,Sdept,Sloc)
第一范式(续)
? SLC的码为 (Sno,Cno)
Sno
Cno
Grade
Sdept
Sloc
SLC
第一范式(续)
函数依赖图,
Sno
Cno
Grade
SC SL
Sno
Sdept
Sloc
第一范式(续)
在 SC和 SL中,非主属性都完全函数依赖于码
了。从而使上述四个问题在一定程度上得到了
一定的解决,
(1) 由于学生选修课程的情况与学生的基本情况
是分开存储在两个关系中的,在 SL关系中可以
插入尚未选课的学生。
第一范式(续)
(2) 删除一个学生的所有选课记录,只是 SC关系
中没有关于该学生的记录了,SL关系中关于该
学生的记录不受影响。
(3) 不论一个学生选多少门课程,他的 Sdept和
Sloc值都只存储 1次。这就大大降低了数据冗余。
(4) 学生转系只需修改 SL关系中该学生元组的
Sdept值和 Sloc值,由于 Sdept,Sloc并未重复
存储,因此减化了修改操作。
4.2 范式
4.2.1 第一范式( 1NF)
4.2.2 第二范式( 2NF)
4.2.3 第三范式( 3NF)
4.2.4 BC范式( BCNF)
4.2.5 多值依赖与第四范式( 4NF)
4.2.2 第二范式( 2NF)
?2NF的定义
定义 5.7 若关系模式 R∈ 1NF,并且每一个非
主属性都完全函数依赖于 R的码,则 R∈ 2NF。
例,SLC(Sno,Sdept,Sloc,Cno,Grade) ∈ 1NF
SC( Sno,Cno,Grade) ∈ 2NF
SL( Sno,Sdept,Sloc) ∈ 2NF
第二范式(续)
? 采用投影分解法将一个 1NF的关系分解为多个
2NF的关系,可以在一定程度上减轻原 1NF关
系中存在的插入异常、删除异常、数据冗余度
大、修改复杂等问题。
? 将一个 1NF关系分解为多个 2NF的关系,并不
能完全消除关系模式中的各种异常情况和数据
冗余。
第二范式(续)
例,2NF关系模式 SL(Sno,Sdept,Sloc)中
?函数依赖,
Sno→Sdept
Sdept→Sloc
Sno→Sloc
SL
Sno
Sdept
Sloc
Sloc传递函数依赖于 Sno,即 SL中存在非
主属性对码的传递函数依赖。
第二范式(续)
? SL关系存在的问题,
(1) 插入异常
如果某个系因种种原因(例如刚刚成立),目
前暂时没有在校学生,我们就无法把这个系的
信息存入数据库。
(2) 删除异常
如果某个系的学生全部毕业了,我们在删除该
系学生信息的同时,把这个系的信息也丢掉了。
第二范式(续)
(3) 数据冗余度大
每一个系的学生都住在同一个地方,关于系的
住处的信息却重复出现,重复次数与该系学生
人数相同。
(4) 修改复杂
当学校调整学生住处时,由于关于每个系的住
处信息是重复存储的,修改时必须同时更新该
系所有学生的 Sloc属性值。
所以 SL仍不是一个好的关系模式。
第二范式(续)
? 原因
Sloc传递函数依赖于 Sno
? 解决方法
采用投影分解法,把 SL分解为两个关系模式,以消
除传递函数依赖,
SD( Sno,Sdept)
DL( Sdept,Sloc)
SD的码为 Sno,DL的码为 Sdept。
SL
Sno
Sdept
Sloc
第二范式(续)
SD的码为 Sno,DL的码为 Sdept。
Sno Sdept
SD
Sdept Sloc
DL
第二范式(续)
在分解后的关系模式中既没有非主属性对码的
部分函数依赖也没有非主属性对码的传递函数
依赖,在一定程度上解决了上述四个问题,
(1) DL关系中可以插入无在校学生的系的信息。
(2) 某个系的学生全部毕业了,只是删除 SD关系中的相应
元组,DL关系中关于该系的信息仍存在。
(3) 关于系的住处的信息只在 DL关系中存储一次。
(4) 当学校调整某个系的学生住处时,只需修改 DL关系
中一个相应元组的 Sloc属性值。
4.2 范式
4.2.1 第一范式( 1NF)
4.2.2 第二范式( 2NF)
4.2.3 第三范式( 3NF)
4.2.4 BC范式( BCNF)
4.2.5 多值依赖与第四范式( 4NF)
4.2.3 第三范式( 3NF)
? 3NF的定义
定义 5.8 关系模式 R<U,F> 中若不存在这样的
码 X、属性组 Y及非主属性 Z( Z ? Y),使得
X→Y,Y → X,Y→Z,成立,则称 R<U,F>
∈ 3NF。
? 例,SL(Sno,Sdept,Sloc) ∈ 2NF
SD( Sno,Sdept) ∈ 3NF
DL( Sdept,Sloc) ∈ 3NF
学生 (学号,姓名,宿舍楼,宿舍号 )∈ 3NF
第三范式(续)
? 若 R∈ 3NF,则 R的每一个非主属性既不部分函
数依赖于候选码也不传递函数依赖于候选码。
? 如果 R∈ 3NF,则 R也是 2NF。
? 采用投影分解法将一个 2NF的关系分解为多个
3NF的关系,可以在一定程度上解决原 2NF关
系中存在的插入异常、删除异常、数据冗余度
大、修改复杂等问题。
? 将一个 2NF关系分解为多个 3NF的关系后,并
不能完全消除关系模式中的各种异常情况和数
据冗余。
第三范式(续)
例:在关系模式 STJ( S,T,J)中,S表示学生,
T表示教师,J表示课程。
? 函数依赖,
假设每一教师只教一门课。每门课由若干教师
教,但某一学生选定某门课,就确定了一个固
定的教师。某个学生选修某个教师的课就确定
了所选课的名称。于是有,
(S,J)→T,(S,T)→J,T→J
第三范式(续)
S
J
T
S
T
J
STJ
第三范式(续)
?(S,J)和 (S,T)都可以作为候选码 。
?STJ∈ 3NF
?T→J,即 T是决定属性集,可是 T只
是主属性,它既不是候选码,也不
包含候选码。
第三范式(续)
? 存在的问题,
(1) 插入异常
如果某个教师开设了某门课程,但尚未有学生
选修,则有关信息也无法存入数据库中。
第三范式(续)
(2) 删除异常
如果选修过某门课程的学生全部毕业了,在删
除这些学生元组的同时,相应教师开设该门课
程的信息也同时丢掉了。
(3) 数据冗余度大
虽然一个教师只教一门课,但每个选修该教师
该门课程的学生元组都要记录这一信息。
第三范式(续)
(4) 修改复杂
某个教师开设的某门课程改名后,所有选修了
该教师该门课程的学生元组都要进行相应修改。
因此虽然 STJ∈ 3NF,但它仍不是一个理想的
关系模式。
第三范式(续)
? 原因,
主属性 J依赖于 T,即主属性 J部分依赖于码 (S,
T)。
? 解决方法,
采用投影分解法,将 STJ分解为二个关系模式,
SJ(S,J)
TJ(T,J)
第三范式(续)
S
J
T
S
T
J
STJ
第三范式(续)
SJ的码为( S,J),TJ的码为 T。
S J
ST
T J
TJ
第三范式(续)
在分解后的关系模式中没有任何属性对码的部
分函数依赖和传递函数依赖。它解决了上述四
个问题,
(1)TJ关系中可以存储所开课程尚未有学生选修
的教师信息。
(2) 选修过某门课程的学生全部毕业了,只是删
除 SJ关系中的相应元组,不会影响 TJ关系中相
应教师开设该门课程的信息。
第三范式(续)
(3) 关于每个教师开设课程的信息只在 TJ关系中
存储一次。
(4) 某个教师开设的某门课程改名后,只需修改
TJ关系中的一个相应元组即可。
4.2 规范化
4.2.1 第一范式( 1NF)
4.2.2 第二范式( 2NF)
4.2.3 第三范式( 3NF)
4.2.4 BC范式( BCNF)
4.2.5 多值依赖与第四范式( 4NF)
4.2.4 BC范式( BCNF)
? BCNF( Boyce Codd Normal Form)是由
Boyce和 Codd提出的,比 3NF更进了一步。通
常认为 BCNF是修正的第三范式,所以有时也
称为第三范式。
? BCNF的定义
定义 5.9 设关系模式 R<U,F>∈ 1NF,如果对
于 R的每个函数依赖 X→Y,若 Y不属于 X,则
X必含有候选码,那么 R∈ BCNF。
BC范式(续)
换句话说,在关系模式 R<U,F>中,如
果每一个决定属性集都包含候选码,则
R∈ BCNF。
例,STJ( S,T,J) ∈ 3NF
SJ( S,J) ∈ BCNF
TJ( T,J) ∈ BCNF
BC范式(续)
? 采用投影分解法将一个 3NF的关系分解为多个
BCNF的关系,可以进一步解决原 3NF关系中存
在的插入异常、删除异常、数据冗余度大、修改
复杂等问题。
? BCNF的关系模式所具有的性质
⒈ 所有非主属性都完全函数依赖于每个候选码。
⒉ 所有主属性都完全函数依赖于每个不包含它的候选码。
⒊ 没有任何属性完全函数依赖于非码的任何一组属性。
BC范式(续)
? 3NF与 BCNF的关系
– 如果关系模式 R∈ BCNF,必定有 R∈ 3NF。
– 如果 R∈ 3NF,且 R只有一个候选码,则 R必
属于 BCNF。
? 如果一个关系数据库中的所有关系模式都属于
BCNF,那么在函数依赖范畴内,它已实现了
模式的彻底分解,达到了最高的规范化程度,
消除了插入异常和删除异常。
4.2 范式
4.2.1 第一范式( 1NF)
4.2.2 第二范式( 2NF)
4.2.3 第三范式( 3NF)
4.2.4 BC范式( BCNF)
4.2.5 多值依赖与第四范式( 4NF)
4.2.5 多值依赖与第四范式( 4NF)
?例子
?一、多值依赖
?二、第四范式( 4NF)
多值依赖与第四范式(续)
例子
属于 BCNF的关系模式,
– 函数依赖, 一个完美的关系模式
– 多值依赖,
例, 设学校中某一门课程由多个教师讲授,他们使用
相同的一套参考书。
用关系模式 Teaching(C,T,B)来表示课程 C、教师 T
和参考书 B之间的关系。
多值依赖与第四范式(续)



课 程 C
教 员 T
参 考 书 B
物理
数学
计算数学
李 勇
王 军
李 勇
张 平
张 平
周 峰
普通物理学
光学原理
物理习题集
数学分析
微分方程
高等代数
数学分析
表 5.1
多值依赖与第四范式(续)
普通物理学
光学原理
物理习题集
普通物理学
光学原理
物理习题集
数学分析
微分方程
高等代数
数学分析
微分方程
高等代数

李 勇
李 勇
李 勇
王 军
王 军
王 军
李 勇
李 勇
李 勇
张 平
张 平
张 平

物 理
物 理
物 理
物 理
物 理
物 理
数 学
数 学
数 学
数 学
数 学
数 学

参考书 B 教员 T 课程 C
用二维表表示:表 5.2 Teaching
多值依赖与第四范式(续)
? Teaching∈ BCNF,Teach具有唯一候选码 (C,
T,B),即全码。
? Teaching模式中存在的问题
(1)数据冗余度大:有多少名任课教师,参考
书就要存储多少次。
多值依赖与第四范式(续)
? Teaching模式中存在的问题
(2)增加操作复杂:当某一课程增加一名任课
教师时,该课程有多少本参照书,就必须插
入多少个元组。
例如物理课增加一名教师刘关,需要插入两
个元组,
(物理,刘关,普通物理学),
(物理,刘关,光学原理)
多值依赖与第四范式(续)
? Teaching模式中存在的问题
(3)删除操作复杂:某一门课要去掉一本参考书,
该课程有多少名教师,就必须删除多少个元组。
(4)修改操作复杂:某一门课要修改一本参考书,
该课程有多少名教师,就必须修改多少个元组。
? 产生原因
参考书的取值和教师的取值是彼此独立毫无关
系的,都只取决于课程名。
一、多值依赖
?定义
定义 5.10 设 R(U)是一个属性集 U上的一个关系
模式,X,Y和 Z是 U的子集,并且 Z= U- X
- Y,多值依赖 X→→Y成立当且仅当对 R的任
一关系 r,r在( X,Z)上的每个值对应一组 Y
的值,这组值仅仅决定于 X值而与 Z值无关。
例 Teaching( C,T,B)
多值依赖(续)
?平凡多值依赖和非平凡的多值依赖
– 若 X→→Y,而 Z= φ,则称
X→→Y为 平凡的多值依赖 。
– 否则称 X→→Y为 非平凡的多值依赖 。
多值依赖(续)
?多值依赖的性质
( 1)多值依赖具有对称性。
若 X→→Y,则 X→→Z,其中 Z= U- X- Y
多值依赖的对称性可以用完全二分图直观地
表示出来。
( 2)多值依赖具有传递性。
若 X→→Y,Y→→Z,则 X→→Z -Y。
多值依赖的对称性
Xi
Zi1 Zi2 … Zim
Yi1 Yi2 … Yin
多值依赖的对称性


普通物理学 光学原理 物理习题集
李勇 王军
多值依赖(续)
( 3)函数依赖是多值依赖的特殊情况。
若 X→Y,则 X→→Y。
( 4)若 X→→Y,X→→Z,则 X→→Y? Z。
( 5)若 X→→Y,X→→Z,则 X→→Y∩Z。
( 6)若 X→→Y,X→→Z,则 X→→Y-Z,
X→→Z -Y。
多值依赖(续)
?多值依赖与函数依赖的区别
(1) 有效性
– 多值依赖的有效性与属性集的范围有关。
? 若 X→→Y在 U上成立,则在 W( X Y ? W ? U)
上一定成立;反之则不然,即 X→→Y在 W( W
? U)上成立,在 U上并不一定成立。
? 原因:多值依赖的定义中不仅涉及属性组 X和 Y,
而且涉及 U中其余属性 Z。
? 一般地,在 R( U)上若有 X→→Y在 W( W ? U)
上成立,则称 X→→Y为 R( U)的嵌入型多值依
赖。
多值依赖(续)
– 函数依赖 X→Y的有效性仅决定于 X,Y这两
个属性集的值
? 只要在 R( U)的任何一个关系 r中,元组在 X和
Y上的值满足定义 5.l,则函数依赖 X→Y在任何
属性集 W( X Y ? W ?U)上成立。
多值依赖(续)
(2)
– 若函数依赖 X→Y在 R( U)上成立,则对于
任何 Y' ? Y均有 X→Y' 成立。
– 多值依赖 X→→Y若在 R(U)上成立,不能断
言对于任何 Y' ? Y有 X→→Y' 成立。
二、第四范式( 4NF)
?定义
定义 5.11 关系模式 R<U,F>∈ 1NF,如果
对于 R的每个非平凡多值依赖 X→→Y( Y ?
X),X都含有候选码,则 R∈ 4NF。
– 4NF就是限制关系模式的属性之间不允许有
非平凡且非函数依赖的多值依赖。 4NF所允
许的非平凡多值依赖实际上是函数依赖。
第四范式(续)
?如果一个关系模式是 4NF,则必为
BCNF。
第四范式(续)
例,Teach(C,T,B)
– 由于 Teach(C,T,B) 中存在非平凡的多值依赖
C→→T,且 C不是候选码,因此 Teach不属
于 4NF。
– 这正是它之所以存在数据冗余度大,插入和
删除操作复杂等弊病的根源。
第四范式(续)
– 解决方法
? 用投影分解法把 Teach分解为如下两个
4NF关系模式,
CT(C,T)
CB(C,B)
? CT∈ 4NF。 C→→T是平凡多值依赖
CT中不存在既非平凡也非函数依赖的
多值依赖。
? CB∈ 4NF。
第四范式(续)
分解后 Teach关系中的几个问题可以得到解决,
(1) 参考书只需要在 CB关系中存储一次。
(2) 当某一课程增加一名任课教师时,只需要
在 CT关系中增加一个元组。
(3) 某一门课要去掉一本参考书,只需要在 CB
关系中删除一个相应的元组。
(4) 某一门课要修改一本参考书,只需要修改
CB关系中一个相应的元组。
第 4章 关系数据库设计理论
?4.1 数据依赖
?4.2 范式
?4.3 关系模式的规范化
4.3 关系模式的规范化
?4.3.1 关系模式规范化的步骤
?4.3.2 关系模式的分解
4.3 关系模式的规范化
?关系数据库的规范化理论是数据库逻辑
设计的工具。
?一个关系只要其分量都是不可分的数据
项,它就是规范化的关系,但这只是最
基本的规范化。
?规范化程度可以有 6个不同的级别,即 6
个范式。
规范化(续)
?规范化程度过低的关系不一定能够很好
地描述现实世界,可能会存在插入异常、
删除异常、修改复杂、数据冗余等问题,
解决方法就是对其进行规范化,转换成
高级范式。
?一个低一级范式的关系模式,通过模式
分解可以转换为若干个高一级范式的关
系模式集合,这种过程就叫 关系模式的
规范化 。
4.3 关系模式的规范化
?4.3.1 关系模式规范化的步骤
?4.3.2 关系模式的分解
4.3.1 关系模式规范化的步骤
?关系模式规范化的基本步骤
1NF
↓ 消除非主属性对码的部分函数依赖
消除决定属性 2NF
集非码的非平 ↓ 消除非主属性对码的传递函数依赖
凡函数依赖 3NF
↓ 消除主属性对码的部分和传递函数依

BCNF
↓ 消除非平凡且非函数依赖的多值依赖
4NF
关系模式规范化的步骤(续)
– 规范化的基本思想是逐步消除数据依
赖中不合适的部分,使模式中的各关
系模式达到某种程度的“分离”,即
采用“一事一地”的模式设计原则,
让一个关系描述一个概念、一个实体
或者实体间的一种联系。若多于一个
概念就把它“分离”出去。因此所谓
规范化实质上是概念的单一化。
关系模式规范化的步骤(续)
– 不能说规范化程度越高的关系模式就
越好。在设计数据库模式结构时,必
须对现实世界的实际情况和用户应用
需求作进一步分析,确定一个合适的、
能够反映现实世界的模式。这也就是
说,上面的规范化步骤可以在其中任
何一步终止。
4.3 关系模式的规范化
?4.3.1 关系模式规范化的步骤
?4.3.2 关系模式的分解
4.3.2 关系模式的分解
?关系模式的规范化过程是通过对关
系模式的分解来实现的
– 把低一级的关系模式分解为若干个高一级的
关系模式的方法并不是唯一的
– 在这些分解方法中,只有能够保证分解后的
关系模式与原关系模式等价的方法才有意义
关系模式的分解(续)
?将一个关系模式 R<U,F>分解为若干个关
系模式 R1<U1,F1>,R2<U2,F2>,…,
Rn<Un,Fn>(其中 U=U1∪ U2∪ … ∪ Un,
且不存在 Ui ? Uj,Fi为 F在 Ui上的投影),
意味着相应地将存储在一个二维表 t中的
数据分散到若干个二维表 t1,t2,…, tn
中去(其中 ti是 t在属性集 Ui上的投影)。
关系模式的分解(续)
例:对于关系模式 SL( Sno,Sdept,Sloc),
SL中有下列函数依赖,
Sno→Sdept
Sdept→Sloc
Sno→Sloc
已知 SL∈ 2NF,该关系模式存在插入异常, 删除
异常, 数据冗余度大和修改复杂的问题 。
因此需要分解该关系模式,使成为更高范式的关
系模式。分解方法可以有很多种。
关系模式的分解(续)
假设下面是该关系模式的一个关系,
SL ──────────────────
Sno Sdept Sloc
──────────────────
95001 CS A
95002 IS B
95003 MA C
95004 IS B
95005 PH B
──────────────────
关系模式的分解(续)
– 第一种分解方法
将 SL分解为下面三个关系模式,
SN(Sno)
SD(Sdept)
SO(Sloc)
关系模式的分解(续)
分解后的关系为,
SN ────── SD ────── SO ──────
Sno Sdept Sloc
────── ────── ──────
95001 CS A
95002 IS B
95003 MA C
95004 PH ─────
95005 ──────
──────
关系模式的分解(续)
SN,SD和 SO都是规范化程度很高的关系模式
( 5NF) 。 但分解后的数据库丢失了许多信息,
例如无法查询 95001学生所在系或所在宿舍 。
因此这种分解方法是不可取的 。
如果分解后的关系可以通过自然连接恢复为原
来的关系, 那么这种分解就没有丢失信息 。
关系模式的分解(续)
– 第二种分解方法
将 SL分解为下面二个关系模式,
NL(Sno,Sloc)
DL(Sdept,Sloc)
分解后的关系为,
NL ──────────── DL ────────────
Sno Sloc Sdept Sloc
──────────── ────────────
95001 A CS A
95002 B IS B
95003 C MA C
95004 B PH B
95005 B ────────────
──────────
关系模式的分解(续)
对 NL和 DL关系进行自然连接的结果为,
NL DL ────────────────
Sno Sloc Sdept
──────────────────
95001 A CS
95002 B IS
95002 B PH
95003 C MA
95004 A IS
95005 B IS
95005 B PH
──────────────────
关系模式的分解(续)
NL DL比原来的 SL关系多了两个元组
(95002,B,PH)和 (95005,B,IS)。因此我
们也无法知道原来的 SL关系中究竟有哪
些元组,从这个意义上说,此分解方法
仍然丢失了信息。
关系模式的分解(续)
– 第三种分解方法
将 SL分解为下面二个关系模式,
ND(Sno,Sdept)
NL(Sno,Sloc)
分解后的关系为,
关系模式的分解(续)
ND ──────────── NL ──────────
Sno Sdept Sno Sloc
──────────── ──────────
95001 CS 95001 A
95002 IS 95002 B
95003 MA 95003 C
95004 IS 95004 B
95005 PH 95005 B
──────────── ───────────
关系模式的分解(续)
对 ND和 NL关系进行自然连接的结果为,
ND NL ───────────────
Sno Sdept Sloc
────────────────
95001 CS A
95002 IS B
95003 MA C
95004 CS A
95005 PH B
────────────────
它与 SL关系完全一样,因此第三种分解方法没有丢失信
息。
关系模式的分解(续)
? 具有无损连接性的模式分解
– 设关系模式 R<U,F>被分解为若干个关系模式
R1<U1,F1>,R2<U2,F2>,…, Rn<Un,Fn>(其
中 U=U1∪ U2∪ … ∪ Un,且不存在 Ui ? Uj,Fi为 F
在 Ui上的投影),若 R与 R1,R2,…, Rn自然连
接的结果相等,则称关系模式 R的这个分解具有无
损连接性( Lossless join)。
– 只有具有无损连接性的分解才能够保证不丢失信息。
– 无损连接性不一定能解决插入异常、删除异常、修
改复杂、数据冗余等问题
关系模式的分解(续)
例,
上面的第三种分解方法虽然具有无损连接性,保证了不
丢失原关系中的信息,但它并没有解决插入异常、删
除异常、修改复杂、数据冗余等问题。
例如 95001学生由 CS系转到 IS系,ND关系的 (95001,CS)
元组和 NL关系的 (95001,A)元组必须同时进行修改,
否则会破坏数据库的一致性。
之所以出现上述问题,是因为分解得到的两个关系模式
不是互相独立的。 SL中的函数依赖 Sdept→Sloc既没有
投影到关系模式 ND上,也没有投影到关系模式 NL上,
而是跨在这两个关系模式上。也就是这种分解方法没
有保持原关系中的函数依赖 。
关系模式的分解(续)
?保持函数依赖的模式分解
– 设关系模式 R<U,F>被分解为若干个关系模
式 R1<U1,F1>,R2<U2,F2>,…, Rn<Un,Fn>
(其中 U=U1∪ U2∪ … ∪ Un,且不存在 Ui ?
Uj,Fi为 F在 Ui上的投影),若 F所逻辑蕴含
的函数依赖一定也由分解得到的某个关系模
式中的函数依赖 Fi所逻辑蕴含,则称关系模
式 R的这个分解是保持函数依赖的
( Preserve dependency)。
关系模式的分解(续)
例:第四种分解方法
将 SL分解为下面二个关系模式,
ND(Sno,Sdept)
DL(Sdept,Sloc)
这种分解方法就保持了函数依赖。
关系模式的分解(续)
?判断对关系模式的一个分解是否与
原关系模式等价的标准
⒈ 分解具有无损连接性
⒉ 分解要保持函数依赖
⒊ 分解既要保持函数依赖,又要具有
无损连接性
关系模式的分解(续)
– 如果一个分解具有无损连接性,则它能够保
证不丢失信息。
– 如果一个分解保持了函数依赖,则它可以减
轻或解决各种异常情况。
– 分解具有无损连接性和分解保持函数依赖是
两个互相独立的标准。具有无损连接性的分
解不一定能够保持函数依赖。同样,保持函
数依赖的分解也不一定具有无损连接性。
关系模式的分解(续)
例:上例中
第一种分解方法既不具有无损连接性,也未保
持函数依赖,它不是原关系模式的一个等价分
解。
第二种分解方法保持了函数依赖,但不具有无
损连接性。
第三种分解方法具有无损连接性,但未持函数
依赖。
第四种分解方法既具有无损连接性,又保持了
函数依赖。
关系模式的分解(续)
?规范化理论提供了一套完整的模式
分解算法,按照这套算法可以做到,
– 若要求分解具有无损连接性,那么模式分解
一定能够达到 4NF。
– 若要求分解保持函数依赖,那么模式分解一
定能够达到 3NF,但不一定能够达到 BCNF。
– 若要求分解既具有无损连接性,又保持函数
依赖,则模式分解一定能够达到 3NF,但不
一定能够达到 BCNF。
小结
?函数依赖
?多值依赖
?关系模式规范化的基本步骤
?Armstrong公理系统
小结
?一、函数依赖
– 函数依赖
– 平凡函数依赖与非平凡函数依赖
– 完全函数依赖与部分函数依赖
– 传递函数依赖
– 码
小结
?二、多值依赖
– 多值依赖
– 平凡多值依赖和非平凡的多值依赖
– 多值依赖的性质
? 对称性
? 传递性
小结
?三、关系模式规范化的基本步骤
1NF
↓ 消除非主属性对码的部分函数依赖
消除决定属性 2NF
集非码的非平 ↓ 消除非主属性对码的传递函数依赖
凡函数依赖 3NF
↓ 消除主属性对码的部分和传递函数依

BCNF
↓ 消除非平凡且非函数依赖的多值依赖
4NF
小结 (续 )
?规范化理论为数据库设计提供了理论的
指南和工具
– 也仅仅是指南和工具
?并不是规范化程度越高, 模式就越好
– 必须结合应用环境和现实世界的具体情况合
理地选择数据库模式