2.1关系数据结构1.二维表在日常工作中,经常会碰到成绩册、职工表等二维表格,这些二维表的共同特点是由多个行和列组成。每个列有列名,表示了某个方面的属性,每行由多个值组成。例如,见表2.1,学生基本情况表就是一个二维表,体现了某个班级的学生基本情况,定义表名为XS。2.1.1关系2.1.1关系二维表具有如下特点:①每个表具有表名;②表由表头和若干行数据两部分构成;③表头有若干列,每列都有列名;④同一列的值必须取自同一个域。例如,专业只能取自该学校有的专业;⑤每一行的数据代表一个实体的信息。对二维表可以进行如下操作:①增加数据。例如,向“学生基本情况表”中增加一个同学的数据(07050103,王俊,男,1989-10-1,计算机应用)。②修改数据。例如,改正“学生基本情况表”中的错误数据。③删除数据。例如,从“学生基本情况表”中去掉一个学生的数据。④查询数据。例如,在“学生基本情况表”中按某些条件查找满足条件的学生。2.关系关系模型的数据结构非常简单,只包含单一数据结构,即关系。从用户角度看,一个关系就是一个规范化的二维表。关系模型就是用关系这种二维表格结构来表示实体及实体之间联系的模型,即关系模型是各个关系框架的集合。一个关系由关系模式和关系实例组成。通常,它们分别对应于二维表的表名、表头和数据。若将表2.1的“学生基本情况表”表示成关系,则如图2.1所示。2.1.1关系图2.1二维表的关系表示图在人们日常理解中,学生是一个抽象的概念,而学生王林是一个具体的学生,是学生中的一员。在数据库领域中把学生称为实体“型”,学生王林则称为一个实体“值”或简称实体。在关系模型中,关系模式描述了一个实体型,而关系实例则是关系模型的“值”,关系实例通常由一组实体组成。以下介绍关系模型中一些常用的术语。●关系:以非形式化的描述,一个关系(Relation)就是指一张二维表。例如,“学生基本情况表”就是一个关系。2.1.1关系●元组:一个元组(Tuple)指二维表中的一行。例如,(07050101,王林,男,1989-3-2,计算机应用)就是一个元组。●属性:一个属性(Attribute)指二维表中的一列,表中每列均有名称,即属性名。例如,“学生基本情况表”有6列,对应6个属性:学号、姓名、性别、出生日期、专业、班级。●码:码(Key)也称为键、关键字、关键码,指其值可唯一确定表中元组的属性或最小属性组合。例如,“学生基本情况表”中的“学号”属性即为码。●域:域(Domain)指属性的取值范围。例如,按照学校对学生学号的编排方法,学号具有一定的范围限制,性别只能取(男,女)之一等。●分量:分量指元组中的一个属性值。例如,元组(07050101,王林,男,1989-3-2,计算机应用)中的“07050101”即为其分量。●关系模式:关系模式是对关系“型”的描述,通常表示为:关系名(属性1,属性2,…,属性n)。例如,XS(学号,姓名,性别,出生日期,专业),关系名为XS,该关系包括5个属性,分别是:学号、姓名、性别、出生日期、专业。关系模型中,要求关系必须是规范化的,即关系要满足规范条件。规范条件最基本的一条就是要求关系的每个分量必须是原子项,是不可再分的数据项,即不允许出现表中表的情形。例如,表2.2的学生情况表中,出生日期是可再分的数据项,因此不符合关系数据库的要求。2.1.1关系表2.2学生情况表学号姓名性别出生日期专业年月日07050101王林男198932计算机应用07050102程小明男1988115计算机应用07030201赵倪晓女198945通信工程07030202朱庆男198864通信工程07060101李运洪女199016英语07060102张美红女198989英语表2.3将关系与现实世界中的二维表格各自使用的术语进行了对照。表2.3术语对照表关系术语现实世界术语关系名表名关系模式表头关系二维表元组记录属性列属性名列名属性值列值2.1.2关系的形式化描述在关系模型中,数据是以二维表的形式存在的,这个二维表就叫做关系。1.域(Domain)定义2.1域是一组具有相同数据类型的值的集合,又称为值域(用D表示)。例如,整数、实数和字符串的集合都是域。域中所包含的值的个数称为域的基数(用m表示)。域表示了关系中属性的取值范围。例如:D1={07050101,07050102,07030201,07030202,07060101,07060102}D2={王林,程小明,赵倪晓,朱庆,李运洪,张美红}D3={男,女}其中,D1,D2,D3为域名,分别表示学生关系中的学号、姓名和性别的取值范围。这3个域的基数分别是6,6,2。2.笛卡儿积(CartesianProduct)定义2.2给定一组域D1,D2,…,Dn(它们可以包含相同的元素),D1,D2,…,Dn的笛卡儿积为D1D2……Dn={(d1,d2,…,dn)|di∈Di,i=1,2,…,n}其中:①每一个元素(d1,d2,d3,…,dn)称为一个n元组(n-tuple),简称元组(Tuple)。注意元组中的每个分量di是按序排列的,如(07050101,王林,男)≠(王林,07050101,男)≠(男,王林,07050101)。2.1.2关系的形式化描述②元组中的每一个值di叫做一个分量(Component),分量来自相应的域(di∈Di)。③笛卡儿积也是一个集合。若Di(i=1,2,…,n)为有限集,其基数为mi(i=1,2,…n),则笛卡儿积D1D2…Dn的基数M(即元素(d1,d2,…,dn)的个数)为所有域的基数的累积,即inimM1例如,上述学生关系中姓名、性别两个域的笛卡儿积为:D1D2={(王林,男),(王林,女),(程小明,男),(程小明,女),(赵倪晓,男),(赵倪晓,女),(朱庆,男),(朱庆,女),(李运洪,男),(李运洪,女),(张美红,男),(张美红,女)}其中,王林、程小明、赵倪晓、朱庆、李运洪、张美红和男、女都是分量,(王林,男),(王林,女)等是元组。该笛卡儿积的基数M=m1×m2=6×2=12,即D1×D2的元组个数为12。2.1.2关系的形式化描述笛卡儿积也可用二维表的形式表示。例如,上述D1×D2可表示为表2.4。表2.4D1,D2的笛卡儿积D1D2王林男王林女程小明男程小明女赵倪晓男赵倪晓女朱庆男朱庆女李运洪男李运洪女张美红男张美红女可见,笛卡儿积实际是一个二维表,表的任意一行就是一个元组,表中的每一列来自同一个域,如表2.4中第一个分量来自D1,第二个分量来自D2。3.关系(Relation)定义2.3笛卡儿积D1×D2×…×Dn的任一子集称为域D1,D2,…,Dn上的关系。关系可用R(D1,D2,…,Dn)的形式表示,其中R为关系名,n是关系的度(Degree),也称目。通常,笛卡儿积D1×D2×…×Dn的许多子集是没有实际意义的,只有其中的某些子集才有实际意义。表2.4D1,D2的笛卡儿积D1D2王林男王林女程小明男程小明女赵倪晓男赵倪晓女朱庆男朱庆女李运洪男李运洪女张美红男张美红女例如,表2.4所示的D1×D2笛卡儿积中的许多元组都是没有实际意义的,因为一个学生的性别只有一种。因此表2.4中的一个子集才是有意义的,见表2.5,表示了学生的性别,将其取名为R1。2.1.2关系的形式化描述下面是对定义2.3的几点说明。①关系中元组个数是关系的基数。如关系R1的基数为6。②关系是一个二维表,表的任意一行对应一个元组,表的每一列来自同一域。由于域可以相同,为了加以区别,必须为每列起一个名字,称为属性。n元关系有n个属性,属性的名字唯一。③在数学上,关系是笛卡儿积的任意子集,但在数据库系统中,关系是笛卡儿积中所取的有意义的有限子集。表2.5R1关系D1D2王林男程小明男赵倪晓女朱庆男李运洪女张美红女2.1.3关系的性质关系具有以下6条性质:①列是同质的(Homogeneous),即每列中的分量必须是同一类型的数据;②不同的列可以出自同一个域,但不同的属性必须赋予不同的属性名;③列的顺序可以任意交换。交换时,应连同属性名一起交换;④任意两个元组不能完全相同;⑤关系中元组的顺序可任意,即可任意交换两行的次序;⑥分量必须取原子值,即要求每个分量都是不可再分的数据项。2.1.4关系模式在第1章已提到,在数据库中要区分“型”和“值”。关系数据库中,关系模式是“型”,关系是“值”。定义2.4关系的描述称为关系模式(RelationSchema)。关系模式可形式化地表示为R(U,D,dom,F)其中,R为关系名;U为组成关系的属性名集合;D为属性组U中属性所来自的域;dom为属性与域之间的映象集合;F为属性间依赖关系的集合。由定义2.4可看出,关系模式是关系的框架,是对关系结构的描述。它指出了关系由哪些属性构成,属性所来自的域以及属性之间的依赖关系等。关于属性间的依赖关系将在第5章讨论,本章中关系模式仅涉及关系名R、属性集合U、域D、属性到域的映像dom这4个部分,即R(U,D,dom)。关系模式通常可简记为:R(U)或R(A1,A2,…,An)。其中R为关系名,A1,A2,…,An为属性名(i=1,2,…,n)。而域名、属性到域的映像则常以属性的类型、数据长度来说明。例如,在学生成绩数据库(XSCJ)中,有学生(XS)、课程(KC)、学生选课(XS_KC)三个关系,其关系模式分别为:XS(学号,姓名,性别,出生日期,专业,总学分,班干否,备注)KC(课程号,课程性质,课程名,开课学期,总学时,学分)XS_KC(学号,课程号,成绩)关系模式是静态的、稳定的,而关系是动态的、随时间不断变化的。关系是关系模式在某一时刻的状态或内容,关系的各种操作将不断地更新数据库中的数据。2.1.5关系数据库关系模型中,实体、实体间的联系都是以关系来表示的。例如,学生成绩数据库中,学生(XS)和课程(KC)关系是用于表示实体的,而学生选课(XS_KC)关系则用于表示“学生”实体与“课程”实体间的联系。定义2.5在给定的应用领域,所有实体及实体之间联系的关系的集合构成一个关系数据库。例如,在研究学生选修课程的问题域中,学生(XS)、课程(KC)、学生选课(XS_KC)三个关系的集合就构成学生成绩数据库。关系数据库也区分“型”和“值”。关系数据库的型即关系数据库模式,是对关系数据库结构的描述。关系数据库模式包括若干域的定义,以及在这些域上定义的若干关系模式,通常以关系数据库中包含的所有关系模式的集合来表示关系数据库模式。例如,学生成绩数据库模式即为学生(XS)、课程(KC)、学生选课(XS_KC)三个关系模式构成的集合。关系数据库的值是指关系数据库模式中的各关系模式在某一时刻对应的关系的集合。例如,若学生数据库模式中各关系模式在某一时刻对应的关系分别见表2.6、表2.7和表2.8,那么它们就是学生数据库的值。2.1.5关系数据库表2.6XS关系学号姓名性别出生日期专业总学分班干否备注07050101王林男1989-3-2计算机应用14党员07050102程小明男1988-11-5计算机应用6是07030201赵倪晓女1989-4-5通信工程8是国家二级运动员07030202朱庆男1988-6-4通信工程507060101李运洪女1990-1-6英语5是钢琴十级07060102张美红女1989-8-9英语5表2.7KC关系课程号课程性质课程名称开课学期总学时学分101公共必修思想道德修养与法律基础1602102公共必修马克思主义基本原理2602103公共必修大学英语11004201基础课程高等数学1903202基础课程计算机基础160+603203基础课程程序设计语言260+603301专业课程阅读与写作1903302专业课程通信原理2903303专业课程软件工程46022.1.5关系数据库表2.8XS_KC关系学号课程号成绩070501011018007050101102680705010110365070501012027507050101203