数据仓库技术介绍了解你的组织了解你的客户了解你的供应商嵇晓内容提要动机与需求数据仓库技术数据仓库在宝钢的实践结束语面临的问题人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助;……企业面临的问题经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据,它是企业生产经营活动的真实记录由于缺乏集中存储和管理,这些数据不能为本企业加以利用,不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息数据爆炸问题–自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中。–我们会淹死在数据中,但却为信息、知识所饿!面临的挑战如何在堆积如山的企业交易数据中发现具有商业价值的闪光点?如何使您的企业或组织在激烈的市场竞争中保持对客户的吸引力?如何预先发现和避免企业运作过程中不易察觉的商业风险?宝钢整体产销信息管理系统L4L2过程控制计算机系统L3(分厂级)生产控制计算机系统宝钢计算机系统的架构L1基础自动化基础自动化宝钢的现状及需求宝钢拥有许多传统的OLTP(联机事务处理)系统,担负着许多重要的日常事物处理工作,在宝钢的生产经营活动中扮演着重要角色。经过多年的计算机应用,宝钢积累了大量丰富翔实的原始生产实绩数据和各种业务数据,它反映了企业生产经营过程中规律性的信息和知识,由于缺乏集中存储和管理,对如何充分有效地利用这些数据,却一直没有很好的解决方法,不能利用它们进行有效的统计、分析及评估,无法将这些数据转换成企业真正有用的信息。宝钢追求的目标宝钢作为中国的特大型钢铁企业,它的主要建设目标是在激烈的国际国内市场竞争中立于不败之地,并且要加强管理、优化资源,追求效益最大化。这就要求使其生产和经营过程共同达到优化,例如,能够快速准确地提供报价、确定交货期、以及确保产品质量等,并且制定有正确的企业发展战略,以适应市场需求的变化,能做出及时反应。宝钢股份的质量方针“重用户、重改进、重效率、重价值,为社会提供世界一流的产品和服务。”-----宝钢股份质量方针随着市场竞争的加剧和用户要求的提高,从大量数据中挖掘规律性知识,制定正确的生产策略和市场策略,显得越来越重要。市场需求是技术发展的源动力数据仓库的出现和发展是数据库和OLTP技术发展、数据库应用深化的产物;目的是把数据库中的大量数据转化为有用信息,为企业更好地进行决策服务。内容提要动机与需求数据仓库技术数据仓库在宝钢的实践结束语在早期,业务人员考虑如何实现自动化…..计算机发展史在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理系统。computer手工业务自动化computercomputer很快就建立了许多应用系统,在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。联机事务系统的建立联机事务系统的建立(续)当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个80年代直到90年代初数据库应用的主流。在数据仓库以前大都是事物处理系统(OLTP)的天下(1965-1990)这个现状持续了25年,它主要实现-数据的收集-数据的存储-数据的在线存取联机事务系统的功能但是在OLTP系统中存在着若干问题-数据不是综合的-没有历史数据-没有汇总数据联机事务系统的问题computercomputercomputerQ1Q2Q3Q1Q2Q3Q4管理者想要了解公司的情况…数据集成问题有多少品种?computer缺乏数据集成不是一个唯一的问题-历史数据的缺乏是另一个应用问题-在过去的三年中,我的帐户每月平均余额是多少?-我怎样才能知道这些数字?-我的帐户现在有多少钱?-你有2,704.87元历史数据问题computer另一个问题是汇总….-发往A公司的货物在哪里?-在出厂中心,将于下周一运到-我们上个月、去年有多少货物发往A公司?-有多少货物准时到达?晚到?发生货损?-我要写个汇总报告.汇总问题computer-贯穿公司的数据集成?-公司的历史数据?-详细数据及汇总数据?获取信息的重要因素应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。决策的需要决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。如果说传统联机事务处理强调的是更新数据库——向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。联机分析处理“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。”----著名的数据仓库专家RalphKimball市场需求是技术发展的源动力早期应用系统PC电子表格归档文件OLTP系统数据仓库获得信息如何获得信息第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心信息查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;获得有用的信息并非想象的那么容易(1)第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;获得有用的信息并非想象的那么容易(2)第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。获得有用的信息并非想象的那么容易(3)针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫作数据仓库。数据仓库的通俗解释数据仓库是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库的通俗定义以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。数据库与数据仓库的辩证关系传统的事务处理环境不适宜于决策支持应用•事务处理和分析处理的性能特性不同•数据集成问题•数据动态集成问题•历史数据问题•数据的综合问题操作型环境和分析型环境的分离从数据库到数据仓库操作型数据&分析型数据的区别操作型数据分析型数据细节的综合的,或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求业务系统DSS(决策支持系统)现在1990数据集市ODS近线存储器探索仓库数据仓库概念的诞生数据仓库的定义数据仓库是面向主题的、综合的、不同时间的、稳定的时间集合,主要用于支持经营管理中的决策制定过程数据仓库之父--BillInmon数据仓库的四个基本特征数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是不可更新的数据仓库的数据是随时间不断变化的数据仓库的体系结构DataExtractionTransformationEngineLoaderMetadataManagerSchedulerSAPRDBMSLegacySASExternalInformationDatabaseQualityMetadata数据的抽取存储和管理信息探索RiskCustomerProductMarketFutureWebEISQueryReportingDataMiningDSSVisualizeOLAP数据的抽取(1)数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据的抽取(2)数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。存储和管理数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。信息探索信息探索实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。数据集市ODS近线存储器探索仓库数据仓库的组成ETL自动处理数据集成和转换12341、通过不干净的遗留系统;2、不合适的集成;3、数据仓库的过期;4、用户需求的改变。如何避免脏数据进入如果数据质量不能被信任,则数据仓库将失去价值,数据管理是一个循环往复的过程,包括四个基本功能:定义量度标准报告改善量度标准报告定义改善连续的改善循环数据质量管理ODS用于集成相关应用系统并且为决策支持系统提供数据基础SAPOracleFinancialsPeopleSoftBaanhomegrown商业系统客户开发系统ODS“遗产”系统DSS探索数据仓库操作数据存储(ODS)近线存储器活动监控器交叉介质数据管理器扩展数据到近线存储器,可以极大地降低数据仓库环境的成本,并且可以将存储能力扩展到无限大近线存储器借助探索仓库--可以极大的降低探索的成本-极大地提高探索速度-探索的能力呈指数级增长探索仓库非常特别的查询tokenbasedtechnologyrelational探索仓库什么是企业数据仓库?企业数据仓库是一个环境,通过有效的信息来满足和促进企业的决策制定过程。企业数据仓库的另一种定义它是一种可信的企业数据库平台,这些数据来自于各种各样的数据源,并且在经过抽取、清洗和转换后根据用户的查询适时地提供给用户。-综合数据-分粒度的数据-历史数据-共享的数据-决策的基础-大的存储量企业数据仓库-分粒度的数据-公司的公共数据-长期历史数据-决策的基础-大的存储量-轻度索引-允许以多种方式浏览数据财务销售市场会计-汇总的数据-部门级的数据-有限的历史数据-有限的存储量-重度索引-有限的数据视图数据集市硅数据集市与数据仓库有根本性的区别财务销售市场会计数据集市与数据仓库采用正确的方法论Development&TestingHighLevel,StrategicSpecificBuild,FocussedProductionEvolving,Integrated评估需求收集设计构造部署回顾管理及维护评估:为数据仓库项目确定企业的业务缺陷;需求收集:启动项目,搜集业务需求并且定义系统检验标准;设计:分析和设计数据仓库系统体系结构,确认检验测试标准;构造:开发、检验测试、移交数据仓库及应用系统;部署:投入到生产环境中并且在企业范围内保证知识转移