精通数据仓库设计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《精通数据仓库设计》(MasteringDataWarehouseDesign)中英对照《精通数据仓库设计》(MasteringDataWarehouseDesign)中英对照第一部分基本概念我们发现,理解为什么采纳某个具体的方法,能帮助我们理解这个方法的价值并应用这个方法。因此,这一节的开始,我们先介绍企业信息工厂(CorporateInformationFactoryCIF),这种已经被证明的、稳定的体系结构。在这种体系结构下,商业智能(BI),包含两种形式的数据存贮,每一种都有一个BI环境下具体的角色。第一类数据存贮是数据仓库,数据仓库主要的角色是担当数据知识库,存贮来自不同数据源的数据,使它能被另一类数据存贮访问。另一类数据存贮就是数据集市。总的来说,设计数据仓库最有效的方法是基于实体-关系数据模型和范式技术(由Code和Date最初在1970,90,90年代为关系数据库创建)。PA数据集市的主要角色是提供企业用户一个容易的访问优良的、集成的信息的方法。在第1章描述有几种类型的数据集市,最常用的数据集市是创建联机分析处理(OLAP),OLAP最有效的设计方法是维度数据模型。在第2章,我们继续这个基本的主题,解释最重要的关系建模技术,介绍所需要的不同类型的模型,提供建立关系模型的过程,同时,我们解释为企业构建一个坚固的基础时,商业数据型、系统数据、技术数据等模型等各类数据模型之间的关系,并解释他们之间是如何互相共享或继承特性。第1章介绍欢迎阅读本书,这是第一本彻底描述构建一个多用途的、稳定的、可持续的,支持商业智能的数据仓库建模技术的书。这一章介绍BI及数据仓库的目标,解释他们如何组合成一个整体的企业信息工厂体系结构,讨论数据仓库建设的迭代性,论证数据仓库数据模型的重要性,以及采用这种数据模型形式的理由。我们讨论这种模型形式为什么应该基于关系设计技术,阐明是为了满足最小冗余,最大稳定性和可维护性的需要。这一章的另一节列出了可维护的数据仓库环境的特点。最后讨论这种建模方法对最终交付数据集市的影响。这一章,让读者理解后续章节的基本原理,后续章节会描述创建数据仓库模型的细节。Chapter1IntroductionCHAPTEWelcometothefirstbookthatthoroughlydescribesthedatamodelingtechniquesusedinconstructingamultipurpose,stable,andsustainabledatawarehouseusedtosupportbusinessintelligence(BI).ThischapterintroducesthedatawarehousebydescribingtheobjectivesofBIandthedatawarehouseandbyexplaininghowthesefitintotheoverallCorporateInformationFactory(CIF)architecture.Itdiscussestheiterativenatureofthedatawarehouseconstructionanddemonstratestheimportanceofthedatawarehousedatamodelandthejustificationforthetypeofdatamodelformatsuggestedinthisbook.Wediscusswhytheformatofthemodelshouldbebasedonrelationaldesigntechniques,illustratingtheneedtomaximizenonredundancy,stability,andmaintainability.Anothersectionofthechapteroutlinesthecharacteristicsofamaintainabledatawarehouseenvironment.Thechapterendswithadiscussionoftheimpactofthismodelingapproachontheultimatedeliveryofthedatamarts.Thischaptersetsupthereadertounderstandtherationalebehindtheensuingchapters,whichdescribeindetailhowtocreatethedatawarehousedatamodel.1.1商业智能概述商业智能,在数据仓库领域,指的是一个企业学习过去的行为与活动,理解组织的过去,确定组织的现状,预计或者改变将来会发生的事情的能力。BI的概念已经提出20年了,让我们简短的回顾过去令人兴奋的、不断创新的10年。OverviewofBusinessIntelligenceBI,inthecontextofthedatawarehouse,istheabilityofanenterprisetostudypastbehaviorsandactionsinordertounderstandwheretheorganizationhasbeen,determineitscurrentsituation,andpredictorchangewhatwillhappeninthefuture.BIhasbeenmaturingformorethan20years.Let’sbrieflygooverthepastdecadeofthisfascinatingandinnovativehistory.也许你熟悉技术采纳曲线,最早采用新技术的公司叫创新者,下一类叫作早期采纳者,然后有前半数成员、后半数成员,最后是落伍者。这个曲线是传统的钟型曲线,在开始的时候成指数增长,在后半周期市场缓慢下降。新技术一旦被引进,往往价钱昂贵且不完善,而很难应用;经过一段时间,性价比可以接受。手机(蜂窝电话)就是一个很好的例子。曾经,只有革新者(医生和律师?)带着手机,又笨重又昂贵,信号不连续,经常丢失通话。现在,你只要花60美元,随处可以拥有一个手机,且服务非常的可靠。You’reprobablyfamiliarwiththetechnologyadoptioncurve.Thefirstcompaniestoadoptthenewtechnologyarecalledinnovators.Thenextcategoryisknownastheearlyadopters,thentherearemembersoftheearlymajority,membersofthelatemajority,andfinallythelaggards.Thecurveisatraditionalbellcurve,withexponentialgrowthinthebeginningandaslowdowninmarketgrowthoccurringduringthelatemajorityperiod.Whennewtechnologyisintroduced,itisusuallyhardtoget,expensive,andimperfect.Overtime,itsavailability,cost,andfeaturesimprovetothepointwherejustaboutanyonecanbenefitfromownership.Cellphonesareagoodexampleofthis.Once,onlytheinnovators(doctorsandlawyers?)carriedthem.Thephoneswerebig,heavy,andexpensive.Theservicewasspottyatbest,andyougot“dropped”alot.Now,therearedealswhereyoucanobtainacellphoneforabout$60,theserviceprovidersthrowin$25ofairtime,andtherearenomonthlyfees,andserviceisquitereliable.数据仓库是这种采纳曲线另一个很好的例子。事实上,如果你还没有开始你的第一个数据仓库项目,那没有比现在更好的开始时间了。今天管理人期望得到大多数好的,及时的信息,用于领导企业进入下一个年代的、基于知识的决策,他们经常做到了,然而,并不是每次都这样。Datawarehousingisanothergoodexampleoftheadoptioncurve.Infact,ifyouhaven’tstartedyourfirstdatawarehouseproject,therehasneverbeenabettertime.Executivestodayexpect,andoftenget,mostofthegood,timelyinformationtheyneedtomakeinformeddecisionstoleadtheircompaniesintothenextdecade.Butthiswasn’talwaysthecase.就在在10年前,同样的管理者批准开发决策信息系统(ExecutiveinformationsystemsEIS)来满足他们的需要。EIS发起人后面的基本概念是合理的:以实时的方式,提供给管理者容易访问的关键性能信息。然而,很多这类系统没有实现它们目标,大多数是因为基本的体系结构不能快速响应企业环境的变化。早期EIS系统另一个显著的缺点是需要花费大量的精力去提供管理者所需要的数据。数据获取,即提取、转换、装载(ETL)过程是一系列复杂的活动,它们的唯一目的是获取最准确的、集成的数据,然后通过数据仓库或者操作型数据存贮(ODS)让企业访问。Justadecadeago,thesesameexecutivessanctionedthedevelopmentofexecutiveinformationsystems(EIS)tomeettheirneeds.TheconceptbehindEISinitiativeswassound—toprovideexecutiveswitheasilyaccessiblekeyperformanceinformationinatimelymanner.However,manyofthesesystemsfellshortoftheirobjectives,largelybecausetheunderlyingarchitecturecouldnotrespondfastenoughtotheenterprise’schangingenvironment.AnothersignificantshortcomingoftheearlyEISdayswastheenormouseffortrequiredtoprovidetheexecutiveswiththedatatheydesired.Dataacquisitionortheextract,transform,andload(ETL)processisacomplexsetofactivitieswhosesolepurposeistoattainthemostaccurateandintegrateddatapossibleandmakeitaccessibletotheenterprisethroughthedatawarehouseoroperationaldatastore(ODS).整个过程以手工密集的活动开始:硬编码“数据吸管”是唯一从操作型系统获取数据的方法,用于商业分析师的访问。这有点类似于早期的电话,穿着轮滑来回穿梭的操作员很难通过插入正确的线绳,连接你呼叫的电话。Theent

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功