第二章商务智能技术基础内容提要•2.1商务智能系统组成及技术基础•2.2数据仓库技术•2.3联机分析技术•2.4数据挖掘技术•2.5数据展现技术2.1商务智能系统架构商务智能系统架构抽取转换装载OLAP服务器数据挖掘服务器报表设计工具外部数据源业务系统数据源元数据元数据数据仓库用户分析人员。。。。。。数据源数据预处理数据仓库数据分析数据展现图1.3商务智能系统的组成商务智能系统架构•商务智能系统的最大好处是可以得到准确、及时的信息,帮助企业赢得竞争优势,这些功能的完成主要依靠DW、DM和OLAP三大技术和数据预处理、建立数据仓库、数据分析及数据展现四个阶段。•数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程;•数据仓库则是处理海量数据的基础;•数据分析是体现系统智能的关键,一般采用OLAP和DM两大技术。OLAP不仅进行数据汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据进行多维分析。数据挖掘则是挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题。•数据展现则主要保障系统分析结果的可视化。数据分析平台(数据挖掘、报表展现和OLAP工具)外部数据源业务处理系统数据源数据仓库商务智能应用元数据商务智能框架图二、商务智能技术简介•1.DW(数据仓库)必要性:实施BI首先要从企业内部和企业外部不同的数据源,如客户关系管理(CRM)、供应链管理(SCM)、企业资源规划(ERP)系统以及其他应用系统等搜集有用的数据,进行转换和合并,因此需要数据仓库和数据集市技术的支持。概念:数据仓库(DataWarehouse)是一种语义上一致的数据存储,是指从多个数据源收集的信息,以一种一致的存储方式保存所得到的数据集合。面向不同的需求,对数据进行清洗以保证数据的正确性,然后对数据进行抽取,转换成数据仓库所需形式,并实现加载到数据仓库。数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具。数据仓库技术也是一种达成“数据整合、知识管理”的有效手段。二、商务智能技术简介•2.OLAP(联机分析处理)联机分析处理(OLAP)又称多维分析,它对数据仓库中的数据进行多维分析和展现,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术。它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。进行OLAP分析的前提是已有建好的数据仓库,之后即可利用OLAP复杂的查询能力、数据对比、数据抽取和报表来进行探测式数据分析了。称其为探测式数据分析,是因为用户在选择相关数据后,通过切片(按二维选择数据)、切块(按三维选择数据)、上钻(选择更高一级的数据详细信息以及数据视图)、下钻(展开同一级数据的详细信息)、旋转(获得不同视图的数据)等操作,可以在不同的粒度上对数据进行分析尝试,得到不同形式的知识和结果。联机分析处理研究主要集中在ROLAP(基于关系数据库的OLAP)的查询优化技术和MOLAP(基于多维数据组织的OLAP)中减少存储空间和提高系统性能的方法等。OLAP操作语言:通过扩展数据库的操作语言SQL,得到MSQL(MultipleSQL)。二、商务智能技术简介•3.DM(数据挖掘)数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。与OLAP的探测式数据分析不同,数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,为决策者提供决策依据。数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型(Predictive)模式和描述型(Descriptive)模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。二、商务智能技术简介•4.三大核心技术之间关系DW是前提和基础。负责统一数据规则的处理和存储。OLAP是操作,侧重显性知识处理和分析。DM是发现,侧重于隐性知识发掘和利用。OLAP与数据挖掘的区别和联系是:OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。数据挖掘的研究重点则偏向数据挖掘算法以及数据挖掘技术在新的数据类型、应用环境中使用时所出现新问题的解决上,如对各种非结构化数据的挖掘、数据挖掘语言的标准化以及可视化数据挖掘等。2.2.1从数据库到数据仓库2.2.2数据仓库的定义和特点2.2.3数据仓库体系结构2.2.4数据仓库的设计与实施建立2.2.5数据仓库系统的评价标准2.2数据仓库(DataWarehouse)事务型处理•事务型处理:即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。•在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。2.2.1从数据库到数据仓库分析型处理•分析型处理:用于管理人员的决策分析,例如DSS、EIS和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。•分析型处理经常要访问大量的历史数据,支持复杂的查询。•分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。事务型处理数据和分析型处理数据的区别特性OLTPOLAP特征面向用户功能DB设计数据汇总视图工作单位存取关注操作访问记录数用户数DB规模优先度量操作处理事务办事员、DBA、数据库专业人员日常操作基于E-R,面向应用当前的;确保最新原始的,高度详细详细,一般关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千100MB到GB高性能,高可用性事务吞吐量信息处理分析知识工人(如经理、主管、分析员)长期信息需求,决策支持星形/雪花,面向主题历史的;跨时间维护汇总的,统一的汇总的,多维的复杂查询大多为读信息输出大量扫描数百万数百100GB到TB高灵活性,端点用户自治查询吞吐量,响应时间数据库系统的局限性•数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。•决策分析型数据是多维性,分析内容复杂。•在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplicationsBrowsersDatamanagementlayerApplicationlayerWebservers数据库系统的局限性(续)•当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。•决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。多库系统的限制•可用性:源站点或通信网络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统。•响应速度:全局查询多级转换和通信传输,延迟和低层效率影响响应速度。•系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥;•系统开销:每次查询要启动多个局部系统,通信和运行开销大。实施数据仓库的条件数据积累已达到一定规模面临激烈的市场竞争在IT方面的资金能得到保障数据仓库的发展•自从NCR公司为WalMart建立了第一个数据仓库。•1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。•早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。•IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。•其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。2.2.2数据仓库(DataWarehouse)的定义和特点–数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。–数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。–数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。–以1992年WHInmon出版《BuildingtheDataWarehouse》为标志,数据仓库发展速度很快。WHInmon被誉为数据仓库之父。–WHInmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。面向主题•数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。•面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。面向主题汽车人寿健康意外伤亡操作性环境应用顾客保险单保险费索赔数据仓库主题集成性•数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。集成数据库应用Am,f应用B1,0应用Cx,y应用D男,女数据仓库m,f编码应用A管道cm应用B管道inches应用C管道mcf应用D管道yds管道cm属性度量稳定性•数据仓库内的数据有很长的时间跨度,通常是5-10年。•数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作.•数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。稳定性插入删除插入修改删除访问修改访问数据的逐个记录方式处理数据的批量载入/访问数据库数据仓库时变性•时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期