01数据仓库概述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一章数据仓库概述纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能2一、数据仓库技术产生的背景1决策信息的需求与当前信息状况的不足2操作性系统与分析性系统3新的数据环境的特点3现有的数据库系统的侧重点现有的数据库系统,主要用于事务(Transaction)处理一笔存款(一张存款单)一笔取款(一张取款单)一笔转帐(一张转帐单)一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性4企业信息化建设现状在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展作出了巨大贡献各类信息系统大多属于面向事务处理的OLTP系统信息系统多年运行,积累了大量的数据数据是一种宝贵的资源,但没有充分发挥作用管理决策层对数据分析基础平台的需求日益强烈5企业信息化建设提出了更高的要求市场竞争日益激烈—创造竞争优势需要及时、准确的做出科学决策科学决策必须以准确、有效的数据为基础充分利用现有数据,将它转化为信息以客户为中心的经营管理模式—优化客户关系原有系统往往以产品为中心原有系统往往以“单据(票证)”的处理为基础转向“以客户为中心”强调服务,尤其是个性化服务个性化数据6现有数据库系统处理“分析型”应用存在的问题数据可信性生产率不可能把数据转换成信息数据动态集成问题历史数据问题数据的综合问题:非细节数据,多种程度的综合7分析处理的需求例1:今年销售量下降的因素时间:销售地区:(销售*顾客)[顾客地址所在的地区,……]商品:(销售*订单细则)[商品类别,……]销售部门:销售*员工*部门[部门名称,……]例2:持卡人今年的交易情况与以往相比,有怎样的变化?交易特点(存款、取款、转帐、消费)是什么?持卡人消费倾向(宾馆、大型商场、超级市场等)是什么?要求:多个子系统中的数据(数据集成)历史数据汇总、综合的数据一致的数据视图8分析人员典型的信息需求覆盖企业内部信息、合作伙伴信息和市场信息覆盖综合信息和明细信息覆盖当前数据和历史数据高可用性高质量的数据(一致性、完整性)支持各种不同的分析方法数据定义符合业务人员要求9分析决策人员的挑战组织内部横向共享信息数据的重构个人授权服务和质量管理组织之间合作伙伴客户驱动的解决方案战略联盟价值链和供应链市场竞争对手市场分割实时的市场行情全球化10数据可信性数据没有同一时间基准例如:一个企业的两个部门向管理者呈送报表部门A,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10%部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15%算法不同部门A使用的是旧帐号部门B使用的是大帐号多次抽取,扩大了上述两个问题用抽取程序从数据库或文件中抽取数据,并存放起来,然后又在此基础上再次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。11数据可信性外部数据问题一位分析员把《华尔街日报》的数据带进系统另一位将《商业周刊》的数据进入系统数据一旦进入系统,往往已失去“身份”,并且一位分析员也不知道另一位分析员所输入的数据开始时就不是同一个公共的数据源部门A最初来源于文件XYZ部门B最初来源于数据库ABC12生产率为了生成一个企业报表:获得源数据定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱把数据加工成报告要写许多程序,每个程序必须客户化(与客户环境有关)程序会涉及公司具有的各种技术由于定位数据困难,检索所要的数据是一件很麻烦的事完成任务需要很长时间定位数据+获得数据+集成报告,完成任务所需时间较长每份报告各自需求不同,因此每份报告所需要的时间都很长。13从数据到信息例如:“今年的帐户情况与前五年比较”涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。没有足够的历史数据:贷款部门,拥有二年的数据银行存折处理,拥有一年的数据即期汇票管理只有60天的数据现金交易处理具有18个月的数据。数据不一致问题:同名不同义、同义不同名,例如M/F,Male/Female外部数据和非结构化数据14两种报表的区别例:就一个银行而言出纳员需要操作型报表,因为他需要知道当天所有交易,来确定一天结束时的现金余额;银行行长的长期战略决策(如决定一个地区安装ATM机的数目)就需要了解大量的内部和外部信息,每天的交易报表对他意义不大,他更需要分析型报表152操作型系统vs.信息型系统操作型系统,OLTP下订单处理呼叫装货开发货单收取现金预定座位16►信息型系统给我销售量最好的产品名单告诉我出问题的地区告诉我为什么(向下钻取)让我看看其他的数据(横向钻取)显示最大利润当一个地区的销售低于目标值时,提醒我将数据写入数据库从数据库中读取战略信息操作型系统vs.信息型系统操作型系统信息型系统数据内容当前值存档的,推导出来的,总结的值数据结构适于事务处理适于复杂查询访问频率高中、低访问连接类型读取、更新、删除读取使用方法可预知的、反复性的特别查询、随机的、启发式的应用响应时间快一般用户大量较少数17操作型环境和分析型环境不同的需求,要求将操作型环境和分析型环境相分离在操作型环境中支持分析应用太复杂、太困难操作性环境不支持域(Domain)之间的联系,仅仅支持表之间的连接不同的数据环境要求从数据组织(结构)和操作上进行工作183数据仓库要解决的基本问题全局范围内统一数据视图数据内容数据的完整性数据的准确性数据的一致性数据组织面向分析决策19数据仓库的功能性定义数据仓库是一种信息环境,它能够:提供对企业综合、完整的概括使决策者所需要的当前数据和历史数据都方便易得无需妨碍操作型系统,也能使支持决策的处理成为可能使企业的信息保持一致性提供了一个灵活的、交互的战略信息来源20数据仓库是信息传递的一种简单概念数据仓库的来源在于对决策信息的需求和对操作型计算环境的不满数据仓库不“创造”新的数据数据仓库概念简单使用所有现存的数据通过清洗、转换提供有用的决策信息21数据仓库是一种环境,而不是产品你不可能买到数据仓库但你可以构建自己的数据仓库数据仓库新型计算环境的特点数据分析和决策支持的理想环境不固定,灵活、交互式操作100%用户驱动适合”提问-回答-再提问”的模式22纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能231数据仓库定义数据仓库的创始者BillInmon:“ADataWarehouseisasubjectoriented,integrated,nonvolatile,andtimevariantcollectionofdatainsupportofmanagement’sdecisions.”“数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合”24“面向主题”的数据在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的在数据仓库中数据是按主题而不是按照应用程序存储的。数据是跨应用程序的25订单处理客户贷款顾客帐单可接收帐款索赔处理储蓄帐目销售产品客户帐户索赔政策操作型应用程序数据仓库主题面向主题的数据组织主题:宏观分析领域所涉及的分析对象面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。采用面向事务进行数据组织,其特点为:充分考虑企业的部门组织结构和业务活动反映企业内部数据流动情况,业务处理的数据流程与业务处理流程中的单据、票证、文档有良好的对应数据与应用(数据的处理)有一定的对应例:保险公司:面向应用(操作):财产险、寿险、健康险、意外险面向主题:客户、保单、保费、理赔(赔款)。26“综合”的数据数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台)数据进入数据仓库前,需要进行的标准化工作:命名规则编码27储蓄帐户支票帐户贷款帐户主题=帐户来自应用程序的数据数据仓库主题数据特性度量单位数据的“时间特性”数据仓库中的每一个数据结构都包含了时间要素。数据仓库中的数据是和时间变化相关的数据可以对过去进行分析与当前的信息相关可以对未来进行预测28数据的非易变性(相对稳定)操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新数据仓库中的数据是用来进行查询和分析的不能在数据仓库中实时地删除数据不能在数据仓库中修改数据29决策支持系统操作型系统OLTP数据库数据仓库读取增加修改删除读取2数据仓库和数据集市数据仓库和数据集市(DataMart)是一个混淆不清的概念。是学术界争论的话题BillInmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。在建立数据仓库前,我们需要考虑下列这些问题:采取自上而下还是自下而上的方法企业范围还是部门范围先建立数据仓库还是数据集市数据集市是否相互独立30数据仓库vs.数据集市数据仓库数据集市►完整的,从企业整体考虑的►部门的►所有数据集市的集合►一个单独的商业处理过程►从阶段区域得到的数据►星型结构►通过展示的方式进行查询►适合数据连接和分析技术►基于公司数据视角的结构►基于适合部门数据视角的结构►通过实体-关系模式进行组织31纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能32数据仓库的组成部分(Component)33源数据部分主要类别生产数据:多个系统多种数据的标准化、转换、整合内部数据:表格、文档存档数据:旧的历史的数据外部数据:社会的企业,社会的人34数据准备部分ETL(ETCL)数据抽取(Extract):多源、异构数据的抽取数据转换(Transform):清洗(Clean)、标准化等过程数据装载(Load)35数据存储部分数据仓库的数据存储器是一个独立的部分与操作型的数据库分开存储大多数数据仓库都采用关系数据库管理系统36信息传递部分多种信息传递方式特别的报表复杂的查询多维分析统计分析主管信息系统的需求数据挖掘37元数据MetaData描述数据的数据数据仓库内容的一本字典元数据是数据仓库数据本身信息的数据元数据对于数据仓库极其重要38纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能392007年三大并购案商务智能开始发力,渐入佳景Oracle33亿美金收购HyperionSAP48亿欧元收购BusinessObjectIBM50亿美金收购Cognos2006年IDC商务智能领域10强BO8.94亿美元SAS6.79亿美元微软、Hyperion、Oracle、SAP40厦门大学软件学院41国内BI状况厦门大学软件学院42Gartner2013年:中国BI市场份额11.75亿美元商务智能BusinessIntelligenceBI概念提出:GartnerGroup(1996年)BI通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。43为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。BI的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。BI是一种解决方案。44BI的关键从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取、

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功