数据库、数据仓库与数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第4章数据库、数据仓库、数据挖掘本章主要内容4.1信息系统的数据管理4.2数据库系统基本概念4.3数据模型4.4关系型数据库4.5数据仓库4.6数据挖掘信息技术•信息技术是管理信息系统的基础,只有把信息技术与管理结合起来,才能真正发挥管理信息系统的作用。•信息技术是指能够扩展人的信息器官功能,完成信息的获取、传递、处理、利用等功能的一种技术。通信技术(传递信息)计算机技术(处理信息)通信技术(传递信息)感测技术(获取信息)外部世界(信源/信宿)控制技术(利用信息)•管理离不开信息的存取及对信息的处理–信息的存取:要具备有效的方法对信息进行组织,以便人们能方便快捷地得到它。–信息的处理:要有恰当的信息处理工具•组织信息的主要工具–数据库–数据仓库•处理数据库和数据仓库的软件工具–数据库管理系统–数据挖掘工具企业利用信息做什么?(1)以事务处理的形式处理信息银行储蓄所业务处理系统进销存管理系统财务管理系统••••••联机事务处理(OLTP)(OnlineTransactionProcessing)数据库及数据库管理系统企业利用信息做什么?(2)在决策活动中利用信息作决策联机分析处理(OLAP)数据仓库及数据挖掘工具确定适当的营销策略市场细分、客户细分确定新的分店的地址••••••企业利用信息做什么?(3)在使用信息的过程中管理信息选择适当的技术去组织信息,以便知识工作者能够逻辑地处理信息,而不必了解信息的物理组织形式确定用户对信息进行操作的权限备份信息,确定信息的保存时间及使用的存储技术••••••4.1信息系统的数据管理•美国学者詹姆斯•马丁提出数据环境的概念,认为只要企业的性质和目标不变,尽管企业的数据加工处理过程是多变,但数据是稳定的。•信息系统是有目的地对企业生产经营活动产生的原始数据进行收集、组织、加工处理,直至生成信息的系统。管理人员则利用信息控制企业各项经营活动并作出决策。•组织数据的逻辑存储结构,将逻辑存储结构转换成计算机物理存储结构,以及根据需要准确、迅速地存取数据等,这些问题都是数据管理技术的主要研究内容。•数据管理是管理活动的最基本内容,也是管理信息系统的基本功能。它一般不涉及复杂的数学计算,但要求处理的数据量很大,因此,进行数据管理时需要考虑以下几个方面的问题:–数据以何种方式存储在计算机中?–采用何种数据结构能有利于数据的存储和取用?–采用何种方法从已组织好的数据中检索数据?数据管理技术的发展阶段•随着计算机硬件和软件技术的发展,以及应用的需求拉动,数据管理技术的发展经历了三个阶段:–人工管理阶段(20世纪50年代中期以前)–文件系统阶段(50年代后期到60年代中期)–数据库系统阶段(60年代后期开始)人工管理阶段•产生的背景–应用需求:科学计算–硬件水平:无直接存取存储设备(硬盘等)–软件水平:没有操作系统–处理方式:批处理应用程序1数据文件1应用程序2应用程序3数据文件2数据文件3用户用户用户人工管理阶段特点•无数据管理及完全分散的方式•数据的管理者:应用程序,数据不保存•数据面向的对象:某一应用程序•数据的共享程度:无共享、冗余度极大•数据的独立性:不独立,完全依赖于程序,修改数据必须修改程序。•数据的结构化:无结构•数据控制能力:程序员必须自行设计数据的组织方式。文件系统阶段•产生的背景–应用需求:科学计算、管理–硬件水平:磁盘、磁鼓–软件水平:有文件系统–处理方式:联机实时处理、批处理应用程序1应用程序2应用程序n数据文件1数据文件2数据文件n………...操作系统文件系统文件系统阶段特点•面向应用的数据管理功能•数据的管理者:文件系统,数据可长期保存•数据面向的对象:某一应用•数据的共享程度:共享性差、冗余度大•数据的结构化:记录内有结构,数据的结构是靠程序定义和解释的;整体无结构,文件间是独立的。•数据的独立性:独立性差,数据的逻辑结构改变必须修改应用程序。•数据控制能力:应用程序自己控制文件系统阶段的不足•数据冗余度大。文件系统中文件基本上对应于某个应用程序,数据仍是面向应用的,不同应用程序所需数据有部分相同时,仍需建立各自的数据文件,不能共享,数据维护困难,一致性难以保证。•数据与程序独立性仍不高。文件是为某一特定应用服务的,系统不易扩充。一旦数据逻辑结构改变,就必须修改文件结构的定义及应用程序;应用程序的变化也将影响文件的结构。因而文件仍不能反映现实世界事物之间的联系。数据库系统阶段•产生的背景–应用背景:大规模管理–硬件背景:大容量磁盘–软件背景:有数据库管理系统–处理方式:联机实时处理、分布处理、批处理应用程序1应用程序2应用程序3DBMS中央数据库用户用户用户数据库系统阶段的特点•面向全组织的复杂数据结构。数据库描述了整个组织数据之间的联系,数据的结构用数据模型描述,无需程序定义和解释。•数据冗余度小。•数据的独立性:高度的物理独立性和一定的逻辑独立性。•数据控制能力:由DBMS统一管理和控制–数据的安全性(Security)保护–数据的完整性(Integrity)检查–并发(Concurrency)控制–数据库恢复(Recovery)4.2数据库系统基本概念•数据库是信息的集合,它能按照信息的逻辑结构对其进行组织与存取。•数据库具有较小的数据冗余,可供多个用户共享,具有较高的数据独立性,具有安全控制机制,能够保证数据的安全、可靠,允许并发地使用数据库,能有效、及时地处理数据,并能保证数据的一致性和完整性。数据库系统结构•DBMS如Oracle、Sybase、SQLServer等。数据库语言数据库管理控制程序数据库服务程序查询工具报表工具......应用程序应用程序数据库管理系统(DBMS)应用数据库引擎数据库DBMS的功能•数据库定义功能–定义数据库中数据的结构、数据完整性约束条件和安全性控制条件,并将所定义的内容保存到数据字典中。•数据库管理功能–管理数据库的内部组织,执行用户存取权限控制、并发控制和数据完整性检查。•数据库访问功能–按用户要求,执行对数据库数据的查询与增、删、改操作;数据的授权访问等。子模式/概念模式映射A物理模型(内模式)用户A用户B用户D用户E外模式1(子模式1)外模式2(子模式2)概念模型(模式)DBMSOS子模式/概念模式映射B模式/内模式映射用户视图DBA视图系统程序员视图保证了数据与程序的逻辑独立性保证了数据与程序的物理独立性数据视图常见的DBMS•个人数据库–dBase、FoxBASE、FoxPro、Access•企业数据库–MSSQLServer–Oracle–Sybase–DB2•免费数据库–MySQL–Postgres4.3数据模型•数据模型用来描述数据之间的关系。•概念模型:着重于数据之间的逻辑联系。–E-R(实体联系)模型–对象模型•存储模型:更强调存储效率。–层次模型-层次数据库–网状模型-网状数据库–关系模型-关系数据库–对象模型-面向对象数据库E-R模型•E-R模型有三个基本元素,即实体、实体之间的联系和属性,它们分别用矩形框、棱型框和椭园形框表示,并且将对应的名字填入框内以作标识,将参与联系的实体用线段连接,并标上联系的数量。实体之间的联系班级班级-班长班长111:1联系课程选修学生mnm:n联系班级组成学生1n1:n联系E-R模型例子选修学号系别课程名选修课主讲老师成绩姓名学生课程MN关系模型•关系模型具有较为坚实的理论基础(关系代数)。•关系:有应用语义的二维表,表中的每一行描述事物或事物一部分状态的数据,表中的每一列描述事物的某个特征。班级姓名性别出生年月学号380601张三男1980/7830721380601李四男1979/12830722380601赵五男1980/3830723380601王英女1980/9830724380601刘六男1980/2830625380601陈苹女1979/10830626•属性:二维表中的一列就是关系模式中的一个属性。–表中的每一个属性必须是基本类型。–表中的每一列的所有值必须是同类型、同语义的。–属性都有取值范围。–表中的每一列都必须有唯一的名字,列在表中的顺序是无关的。一个关系的例子课程号课程名授课学时授课学期J001数据库726J003C程序设计542Z004操作系统725Z006编译原理726X001数值分析543X002面向对象364六条记录四个属性候选关键字主关键字关键字和外部关键字97832郑国兴446-7987岷江南路69号67098孙大明239-7101东方花园1932号47952李平237-2310桃园小区A幢3号47857张东升237-6871长江路132号顾客标识号姓名电话地址Customer关系479524781-24-14-974-17-97479524371-14-14-974-17-97978321111-23-11-973-13-97顾客标识号影碟号租赁日期归还日期VideoRental关系4781-2《未来世界》科幻45713.004781-1《笑傲江湖》武侠45713.004371-1《英雄本色》枪战38123.002356-1《射雕英雄传》武侠23521.501111-2《星球大战》科幻45723.001111-1《虎口脱险》喜剧45723.00影碟号名字类型经销商代码天数租价(元)Video关系关键字外部关键字4.4关系型数据库•表(Table)–表是数据存储的最主要、最基本的单位。数据库可以有多张表组成,这些表之间存在一定的关系。–表对应数据库的模式,表由行(对应记录)和列(对应属性)组成。•视图(View)–视图是用户看到的数据,它提供了数据的逻辑独立性。•存储过程–是一段代码块,它封装了复杂的数据操作命令,提供了代码共享功能,并提高了数据操作的速度。•触发器(Trigger)–触发器主要用于实现复杂的商业规则或复杂的完整性约束,它是由数据的操作而自动引发执行的代码段。•索引–用于加快数据的查询速度。•约束–约束用于保证数据的完整性,它包括实体完整性、引用完整性和用户定义完整性。目的是保证数据库中存储的数据是正确的数据。数据的完整性•关系的完整性是指关系中数据值与其描述的应用对象实际状态保证一致的约束条件。•实体完整性–指关系中的主关键字不能为空,且主关键字的值不能相同,保证主关键字能唯一地标识关系中的每个元组。•引用完整性–指不允许引用数据库中不存在的外键数据,外键(或叫外部关键字)是指一个表中的某个属性是另一个表的主关键字。•用户定义完整性–规定了属性的值必须是域中的值。如性别只有‘男’或‘女’,年龄只在0~150等。学号姓名年龄…………………………课程号课程名……………………学号课程号成绩……………………学生情况表课程表学生选课表主关键字关系的完整性举例选课表中不允许出现“学生”表中没有的学号,同时也不允许出现“课程”表中没有的课程号。可以通过定义外键来实现,定义修课表中的学号是学生表的外键,选课表中的课程号是课程表的外键。注意是先有主关键字值,后有外键值。学号姓名专业出生日期….MG903811Peter电子商务55/10/10….MG903812John金融65/09/10….学号课程代码修读时间课程类型成绩MG90381210199-1选修86MG90381110199-2必修90MG90381110299-1必修91课程代码课程名称开课系别101E-B电子商务102MIS电子商务数据库设计的过程DBMS的数据模型加工、转换存储二进制数据集合结构计算机世界加工转换DBMS数文件据记录库相关数据项集合数据世界实体实体集合及实体联系相关属性集合信息世界人认识、描述客观事物类:事物相关性质集合现实世界E-R模型4.5数据仓库•数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,并用于支持企业的分析活动和决策任务。•为什么使用数据仓库?–传统的数据库对企业的决策支持作用有限–企业大量的数据资源没有得到充分的利用——“数据爆炸而知识贫乏”–提高数据存储和数据分析的效率

1 / 100
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功