1第六章关系数据理论6.1问题的提出6.2规范化6.3数据依赖的公理系统*6.4模式的分解6.5小结26.1问题的提出关系数据库逻辑设计–针对具体问题,如何构造一个适合于它的数据模式–数据库逻辑设计的工具──关系数据库的规范化理论3问题的提出一、概念回顾二、关系模式的形式化定义三、什么是数据依赖四、关系模式的简化定义五、数据依赖对关系模式影响4一、概念回顾•关系•关系模式•关系数据库•关系数据库的模式5二、关系模式的形式化定义关系模式由五部分组成,即它是一个五元组:R(U,D,DOM,F)R:关系名U:组成该关系的属性名集合D:属性组U中属性所来自的域DOM:属性向域的映象集合F:属性间数据的依赖关系集合6三、什么是数据依赖1.完整性约束的表现形式•限定属性取值范围:例如学生成绩必须在0-100之间•定义属性值间的相互关连(主要体现于值的相等与否),这就是数据依赖,它是数据库模式设计的关键7什么是数据依赖(续)2.数据依赖•一个关系内部属性与属性之间的约束关系•现实世界属性间相互联系的抽象•数据内在的性质•语义的体现8什么是数据依赖(续)3.数据依赖的类型•函数依赖(FunctionalDependency,简记为FD)•多值依赖(MultivaluedDependency,简记为MVD)•其他9四、关系模式的简化表示•关系模式R(U,D,DOM,F)简化为一个三元组:R(U,F)•当且仅当U上的一个关系r满足F时,r称为关系模式R(U,F)的一个关系10五、数据依赖对关系模式的影响[例1]建立一个描述学校教务的数据库:学生的学号(Sno)、所在系(Sdept)系主任姓名(Mname)、课程号(Cno)、成绩(Grade)单一的关系模式:StudentU、FU={Sno,Sdept,Mname,Cno,Grade}11数据依赖对关系模式的影响(续)属性组U上的一组函数依赖F:F={Sno→Sdept,Sdept→Mname,(Sno,Cno)→Grade}SnoCnoSdeptMnameGrade12SnoSdeptMnameCnoGrades1计算机张明C190s2计算机张明C186s3计算机张明C167s4计算机张明C178s5计算机张明C174s6计算机张明C187一个有问题的表数据13关系模式StudentU,F中存在的问题1.数据冗余太大每个系主任名字大量重复出现。2.更新异常(UpdateAnomalies)某系更换系主任,必须修改与该系学生有关的每个元组。3.插入异常(InsertionAnomalies)如果一个系刚成立,尚无学生,就无法把这个系及其系主任信息录入。4.删除异常(DeletionAnomalies)如果某个系的学生全部毕业了,在删除该系学生信息的同时,把这个系及其系主任的信息也删除了。14数据依赖对关系模式的影响(续)结论:Student关系模式不是一个好的模式。“好”的模式:不会发生插入异常、删除异常、更新异常,数据冗余应尽可能少原因:由存在于模式中的某些数据依赖引起的解决方法:通过分解关系模式来消除其中不合适的数据依赖15分解关系模式•把这个单一模式分成3个关系模式:S(Sno,Sdept,Sno→Sdept);SC(Sno,Cno,Grade,(Sno,Cno)→Grade);DEPT(Sdept,Mname,Sdept→Mname)16第六章关系数据理论6.1问题的提出6.2规范化6.3数据依赖的公理系统*6.4模式的分解6.5小结176.2规范化规范化理论正是用来改造关系模式,通过分解关系模式来消除其中不合适的数据依赖,以解决插入异常、删除异常、更新异常和数据冗余问题。186.2规范化6.2.1函数依赖6.2.2码6.2.3范式6.2.42NF6.2.53NF6.2.6BCNF6.2.7多值依赖6.2.84NF6.2.9规范化小结196.2.1函数依赖•函数依赖–平凡函数依赖与非平凡函数依赖–完全函数依赖与部分函数依赖–传递函数依赖20一、函数依赖定义6.1设R(U)是一个属性集U上的关系模式,X和Y是U的子集。若对于R(U)的任意一个可能的关系r,r中不可能存在两个元组在X上的属性值相等,而在Y上的属性值不等,则称“X函数确定Y”或“Y函数依赖于X”,记作X→Y。例如:学号(X)姓名(Y)21说明1.所有关系实例均要满足2.语义范畴的概念3.数据库设计者可以对现实世界作强制的规定(例如:学生表中不允许姓名重复)22二、平凡函数依赖与非平凡函数依赖在关系模式R(U)中,对于U的子集X和Y,如果X→Y,但YX,则称X→Y是非平凡的函数依赖若X→Y,但YX,则称X→Y是平凡的函数依赖•例:在关系SC(Sno,Cno,Grade)中,非平凡函数依赖:(Sno,Cno)→Grade平凡函数依赖:(Sno,Cno)→Sno(Sno,Cno)→Cno23平凡函数依赖与非平凡函数依赖(续)–若X→Y,则X称为这个函数依赖的决定属性组,也称为决定因素(Determinant)。–若X→Y,Y→X,则记作X←→Y。–若Y不函数依赖于X,则记作X→Y。24三、完全函数依赖与部分函数依赖定义6.2在R(U)中,如果X→Y,并且对于X的任何一个真子集X’,都有X’Y,则称Y对X完全函数依赖,记作XFY。若X→Y,但Y不完全函数依赖于X,则称Y对X部分函数依赖,记作XPY。25完全函数依赖与部分函数依赖(续)[例1]中(Sno,Cno)→Grade是完全函数依赖,(Sno,Cno)→Sdept是部分函数依赖因为Sno→Sdept成立,且Sno是(Sno,Cno)的真子集FP26四、传递函数依赖定义6.3在R(U)中,如果X→Y(YX),Y→XY→Z,则称Z对X传递函数依赖。记为:X→Z注:如果Y→X,即X←→Y,则Z直接依赖于X。例:在关系Std(Sno,Sdept,Mname)中,有:Sno→Sdept,Sdept→MnameMname传递函数依赖于Sno传递276.2规范化6.2.1函数依赖6.2.2码6.2.3范式6.2.42NF6.2.53NF6.2.6BCNF6.2.7多值依赖6.2.84NF6.2.9规范化小结286.2.2码定义6.4设K为RU,F中的属性或属性组合。若KU,则K称为R的侯选码(CandidateKey)。若候选码多于一个,则选定其中的一个做为主码(PrimaryKey)。F29码(续)•主属性与非主属性–包含在任何一个候选码中的属性,称为主属性(Primeattribute)–不包含在任何码中的属性称为非主属性(Nonprimeattribute)或非码属性(Non-keyattribute)•全码–整个属性组是码,称为全码(All-key)30码(续)[例2]关系模式S(Sno,Sdept,Sage),单个属性Sno是码,SC(Sno,Cno,Grade)中,(Sno,Cno)是码[例3]关系模式R(P,W,A)P:演奏者W:作品A:听众一个演奏者可以演奏多个作品某一作品可被多个演奏者演奏听众可以欣赏不同演奏者的不同作品码为(P,W,A),即All-Key31外部码定义6.5关系模式R中属性或属性组X并非R的码,但X是另一个关系模式的码,则称X是R的外部码(Foreignkey)也称外码。如在SC(Sno,Cno,Grade)中,Sno不是码,但Sno是关系模式S(Sno,Sdept,Sage)的码,则Sno是关系模式SC的外部码主码与外部码一起提供了表示关系间联系的手段326.2规范化6.2.1函数依赖6.2.2码6.2.3范式6.2.42NF6.2.53NF6.2.6BCNF6.2.7多值依赖6.2.84NF6.2.9规范化小结336.2.3范式•范式是符合某一种级别的关系模式的集合•关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式•范式的种类:第一范式(1NF)第二范式(2NF)第三范式(3NF)BC范式(BCNF)第四范式(4NF)第五范式(5NF)346.2.3范式•各种范式之间存在联系:–某一关系模式R为第n范式,可简记为R∈nNF。–一个低一级范式的关系模式,通过模式分解可以转换为若干个高一级范式的关系模式的集合,这种过程就叫规范化NF5NF4BCNFNF3NF2NF11NF2NF3NFBCNF4NF5NF356.2规范化6.2.1函数依赖6.2.2码6.2.3范式6.2.42NF6.2.53NF6.2.6BCNF6.2.7多值依赖6.2.84NF6.2.9规范化小结366.2.42NF•1NF的定义:如果一个关系模式R的所有属性都是不可分的基本数据项,则R∈1NF–第一范式是对关系模式的最起码的要求。不满足第一范式的数据库模式不能称为关系数据库–但是满足第一范式的关系模式并不一定是一个好的关系模式371NF第一范式•关系模式中每一个分量,必须是不可分的数据项,•满足了这个条件的关系模式,属于第一范式(1NF),即:–关系模式中不存在复合数据项;–是平坦的数据结构。•例,职工档案(非规范的)复合数据项工号姓名出生时间……受奖情况获奖时间奖励称号获奖等级奖励部门38人们在处理这个问题的时候,不规范的作法是------采用:(1)横向冗余法(例如,表A)(2)纵向冗余法(例如,表B)表A.横向冗余法报表实例工号姓名出生时间……获奖时间1奖励称号1获奖等级1奖励部门1获奖时间2奖励称号2获奖等级2奖励部门2获奖时间3奖励称号3获奖等级3奖励部门3获奖时间4奖励称号4获奖等级4奖励部门4…………表B.纵向冗余法报表实例工号姓名出生时间……获奖时间奖励称号获奖等级奖励部门001张三1965040319920401市劳模大连市001张三1965040319920401科技进步奖一等大连市001张三1965040319920401科学发明一等辽宁省……………………化为1NF,将上述关系拆开成两个表,即把组合项拿出来单独形成一个表:工号姓名出生时间……工号获奖时间奖励称号获奖等级奖励部门392NF(续)[例4]关系模式S-L-C(Sno,Sdept,Sloc,Cno,Grade)Sloc为学生住处,假设每个系的学生住在同一个地方•函数依赖包括:(Sno,Cno)FGradeSno→Sdept(Sno,Cno)PSdeptSno→Sloc(Sno,Cno)PSlocSdept→Sloc402NF(续)•S-L-C的码为(Sno,Cno)•S-L-C满足第一范式。•非主属性Sdept和Sloc部分函数依赖于码(Sno,Cno)SnoCnoGradeSdeptSlocS-L-C41S-L-C不是一个好的关系模式(续)(1)插入异常:无选课就不能插入(2)删除异常:删除选课信息,其他信息丢失(3)数据冗余度大:选多门课,其他信息重复(4)修改复杂:转系或学生住处改变,修改复杂。42S-L-C不是一个好的关系模式(续)•原因Sdept、Sloc部分函数依赖于码。•解决方法S-L-C分解为两个关系模式,以消除这些部分函数依赖SC(Sno,Cno,Grade)S-L(Sno,Sdept,Sloc)432NF(续)函数依赖图:SnoCnoGradeSCS-LSnoSdeptSloc关系模式SC的码为(Sno,Cno)关系模式S-L的码为Sno这样非主属性对码都是完全函数依赖442NF(续)•2NF的定义定义6.6若R∈1NF,且每一个非主属性完全函数依赖于码,则R∈2NF。例:S-L-C(Sno,Sdept,Sloc,Cno,Grade)∈1NFS-L-C(Sno,Sdept,Sloc,Cno,Grade)∈2NFSC(Sno,Cno,Grade)∈2NFS-L(Sno,Sdept,Sloc)∈2NF452NF(续)•采用投影分解法将一个1NF的关系分解为多个2NF的关系,可以在一定程度上减轻原1NF关系中存在的插入异常、删除异常、数据冗余度大、修改复杂等问题。•将一个1NF关系分解为多个2NF的关系,并不能