第6章数据库和数据仓库技术6.1企业数据处理方式6.2文件组织6.3数据库系统6.4数据仓库和商业智能6.1企业数据处理方式•以联机事务处理形式处理信息•以联机分析处理形式处理信息,并利用信息进行决策•在信息应用过程中管理信息图6-1联机事务处理与联机分析处理产品数据库数据仓库增加一条新的生产线更该产品单价扩大顾客的信誉范围更改顾客收入水平顾客数据库个人信息数据库信息被用于决策处理数据库的一种特定形式,它仅支持决策处理上个月有多少产品的销售额超过10000美元如果库存以10%速度下降,那么新的库存担负的成本是什么?顾客能变向接受高价位产品吗?------------------------------------------------------OLTPOLAP6.2.2数据的物理组织和逻辑组织物理组织技术界面逻辑组织存储介质存储单位光盘比特(0,1)↓数据库硬盘字节→数据库管理系统→字符↓数据仓库↓软盘字数据仓库管理系统字段↓文件信息↓使用者数据库↓数据仓库图6-2信息的物理组织与逻辑组织图6-4逻辑数据元素之间的关系记录1记录4记录3记录2记录2图6-5磁盘顺序文件1顺序文件组织2索引文件记录地址学号姓名数学物理Basic主关键字(学号)记录地址A870701张╳687472870701AB870705李╳958792870705BC870707赵╳778384870707CD870712周╳858188870712DE870721陈╳626461870721EF870724王╳828892870724FG870736黄╳757477870736G记录地址学号姓名数学物理Basic主关键字(学号)记录地址A870712周╳858188870701DB870724王╳828892870705GC870707赵╳778384870707CD870701张╳687472870712AE870736黄╳757477870721FF870721陈╳626461870724BG870705李╳958792870736E(b)非索引顺序文件索引(a)索引顺序文件索引3链表文件记录地址职工号姓名部门编号部门指南工作年限DT入口→A1111-DTC-NW入口→B1121-NWE-C1981-DTD-D2014-DTH-E2084-NWF-F2918-NW∧-EA入口→G3001-EAI-H3101-DTJ-I3241-EA∧-J3358-DT∧-NE入口→K3861-NEL-L3871-NE∧-部门代码(辅关键字符)链表长度(记录个数)链头指针(入口地址)部门代码(辅关键字符)链表长度(记录个数)链头指针(入口地址)DT5AEA2GNW3BNE2K4倒排文件辅关键字指针表辅关键字值指针部门编号DT11111981201431013358NW112120842918EA30013241NE38613871工作年限NN≤511112014208429185<N≤103101386115<N≤2030013871N>201981透支现额%0111120142084291831013861100112130013241335838712001981图6-8DBMS的主要功能图6-9数据模型图6-10数据库的三级体系结构图6-11三个不同的世界客观世界信息世界(概念世界)数据世界组织(事物及其联系)实体及其联系(概念模型)数据库(数据模型)事物类(总体)实体集文件事物(对象、个体)实体记录特征(性质)属性数据项表6-7三个不同世界术语对照表数据库设计步骤1.对现实世界进行需求分析①了解组织机构情况,为分析信息流做准备;②了解各部门业务情况,调查各部门输入和使用的数据,及处理数据的方式与算法;③确定数据库的信息组成及计算机系统应实现的功能。2.建立信息世界中E-R(概念)模型①建立分E-R图;②综合分E-R图,产生总E-R图。3.从E-R图导出计算机世界的关系数据模型①E-R图中每个实体,都相应地转换为一个关系②将联系转换成一个关系某学院“教学管理”数据库模型1.设计“系和教师关系”的分E-R图2.设计“学生和课程关系”的分E-R图3.设计“教师与课程关系”的分E-R图4.将上述三个分综合,建立学院教学管理总E-R图5.将学院“教学管理E-R图”所描述的信息(概念)世界中的概念模型转化为计算机上由关系型DBMS支持的关系数据模型。设计“系和教师关系”的分E-R图•该学院下设四个系:管理工程系、会计系、市场营销系和信息管理系。每个系有一个系主任主管该系工作。▫将“系”设为一个实体,该实体具有以下属性:系代号、系名称、系主任姓名、办公地点、电话。其中系代号是主关键字系代号系名称系主任办公地点电话系•该学院聘请了一定数量的专职教师。▫将“教师”设为一个实体,该实体具有以下属性:教师编号、教师姓名、专业特长。其中教师编号是主关键字。教师编号教师姓名专业特长教师•学院聘请教师后,分配到各系。▫一个系有多个教师;一个教师只能属于一个系。“教师”实体与“系”实体之间发生一对多(1:M)的“分配”联系。1分配m系教师教学管理总E-R图图6-13“教学管理”E-R图6.3.5数据库技术的发展趋势•数据管理方式:集中式分布式•数据模型:关系数据库多媒体数据库、面向对象数据库(a)(b)图6-14分布式数据库的结构形式中央数据库主机远程CPU远程CPUAB...远程局部数据库A远程局部数据库B中央数据库主机远程CPU远程CPUAB...复制数据库A复制数据库B6.4.1数据仓库•数据仓库之父W.H.Inmon:“数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrated)、非易失的(Non-Volatile)、随时间变化的(TimeVariant)的数据集合,用于支持管理决策”。销售市场数据库销售额数据库顾客数据库数据仓库按年和季度求平均值竞争统计顾客分类、信誉度平均图6-15数据仓库源于业务数据库6.4.2联机分析处理•联机分析处理(On-LineAnalyticalProcessing,OLAP):主要是对大量多维数据的动态综合、分析和归纳。•OLAP中的一个主要操作是“多维分析”,即通过对信息的多种可能的观察形式进行快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入分析。图6-16多维视图示例生产线1生产线2生产线3生产线4北区西南区东南区东区西区年份顾客分类信誉度•切片和切块(SliceandDice)•钻取(Drill)•旋转(Rotate)/转轴(Pivot)6.4.3商业智能•商业智能(BusinessIntelligence)是指通过对数据的收集、管理、分析以及转化,使数据成为可用的信息,并在企业中共享传递,从而帮助企业获得必要的洞察力和理解力,更好地辅助决策和指导行动。6.4.4数据挖掘•数据挖掘(DataMining)是从大量数据中自动发现隐藏的有用知识的过程,是从大量数据中挖掘“宝藏”的过程。▫分类(Classification)▫聚类(Clustering)▫关联规则发现(AssociationRuleDiscovery)▫时序模式发现(SequentialPatternDiscovery)