1SAS数据仓库与数据挖掘---从业务数据中提炼决策支持信息的解决方案2目录SAS研究所和SAS系统1利用SAS技术建立你的数据仓库2SAS数据仓库的组成4SAS数据仓库的体系结构6SAS数据仓库的开发9SAS的数据仓库产品-SAS/WA12SAS帮助你进行数据挖掘15SAS的数据挖掘的方法论-SEMMA17SAS数据挖掘的集成软件工具-SAS/EM(EnterpriseMiner)21决策支持智能化24企业级的报表制作工具-SAS/ER+SAS/MDDB+SAS/IntrNet27在网上展开SAS功能313SAS研究所和SAS系统SAS系统是用于严肃数据分析和决策支持的大型集成式模块化软件包。六十年代末到八十年代初以统计分析及线性数学模型为主,并以此闻名于世。故其早期名为“StatisticalAnalysisSystem”。“SAS”即成为SAS软件研究所(SASInstituteInc.)产品的总商标。SAS软件研究所跨国公司成立于1976年,总部设在美国北卡州凯瑞市(CaryNorthCarolina)。SAS保持了20年连续不断的两位数的业务收入增长率,现已是全球最大的私人软件公司和全球排名第九位的独立软件商。缘其是私人独立软件商,免受股市和公众股东资本的操纵和影响,按自主意志把收益的很大部分再投入于研究和发展,使其研发投资比重一直保持了全球软件业的领先地位。凭借这一技术优势,遍布世界的4500多名SAS员工为120多个国家的三百五十多万SAS用户提供了行业公誉的高质量技术服务和支持。面对当今竞争日趋激烈、瞬息万变的世界市场经济,从国家机关到企业界的各类人员都要面对各种机遇迅速作出抉择。计算机系统支持人们能做出迅即反应业务处理的能力已满足不了当今的需求,要信息技术对各个层次和各种类型决策进行支持已是IT行业发展必然趋势。SAS以其具有前瞻性的技术开拓,在决策支持工具──数据仓库和数据挖掘(DataWarehouse与DataMining)方面已连年被评为“年度最佳产品”、“最佳决策支持工具”。公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100家公司”之一及“最佳决策支持工具的供应商”。Internet已成为世界信息的通衢大道,Intranet也已成为先进企业的信息经脉。SAS技术也与之有着同步的发展。SAS的IntrNet产品使全部的SAS技术最大限度的实现了Web-Enable。这使得SAS原来跨多平台应用的开放机制扩展到了网络计算环境和网际应用。这不仅使SAS使用更加方便,而且使那些以Thin-client运行的系统在使用SAS时节省了投资,并减少了系统维护的工作量。在这里将按下面五个脉络向你系统的介绍SAS技术:*SAS世界领先的数据仓库技术*SAS获最佳决策支持工具褒奖的数据挖掘技术*SAS的业务智能化技术*SAS的企业级报表制作工具*SAS的Web-Enablement你可以通过。你还可以通过美国SAS研究所设立在北京(Tel:010-6235128(0-3)),上海(Tel:021-63582288)和广州(Tel:020-87554490)的办事处得到直接的咨询和技术支持。45利用SAS技术建立你的数据仓库由于使用SAS系统成功地建立了许多卓有成效的数据仓库,SAS系统的数据仓库产品已连续两年(1996-1997)被美国著名的“Datamation”评为“当年度最佳产品”。销售额也占据了SAS产品的首位。98年又在DCI全球数据仓库大会荣获“ExcellenceinBusinessInformation”大奖。正象数据仓库虽然是个较新的词语,但它是计算机技术发展的必然结果一样;SAS获此殊荣也非一日之功,正是它顺合计算机技术发展规律的渊源所致。为什么在有了这么多数据库产品之后,人们又要用数据仓库技术。业界的各路诸侯又如此趋之若骛。这正是计算机技术应用需求的推动。当年数据库技术大发展的过程是伴随着OLTP(OnLineTransactionProcess联机业务处理)应用需求的推动。联机业务处理最迫切的技术要求就是快速响应。数据库技术,特别是基于E.F.Codd提出的关系理论的数据库的技术,将数据集分成了甚少冗余的实体(Entity),然后又将它们按一定的关系(Relationship)编织成一个有机的整体,比较完美地满足了OLTP的应用需求。对于每个业务处理最好只须涉及一个实体,业务处理对于实体的Add或Update也只涉及数据媒体的可能最小的空间(如记录级封锁技术),对于其它实体的相关更新通过关系保持了一致性和完整性。这个切合当时OLTP应用实际需求的理论和技术的成功,推动了关系数据库产品风靡世界。象计算机技术的迅速发展一样,激烈竞争的市场也激发了各行各业对计算机应用的更多样的需求。计算机用户早已不满足于计算机能帮助他迅速地处理具体业务,他们要从这大量业务数据中探索业务活动的规律性,市场的运作趋势,并从中为他们参与市场竞争作出重要的决策。由此而来产生了对DSS(DecisionSupportSystem)──决策支持系统的需求。支持决策就要进行数据,信息的分析,这就产生了OLAP(OnLineAnalysisProcess)联机数据分析处理的需要。决策支持所依据的数据从哪里来,当然是成功运行着的业务处理数据库中的数据。所以最早的决策支持所进行的数据处理就是直接使用数据库中的数据。可称之为ROLAP,即利用关系数据库的数据进行联机分析处理。SAS系统早就具有最强有力的数据分析处理能力,再加上SAS的SAS/ACCESS对几乎所有数据库和数据文件的强大的读取能力,以及SAS跨多平台的运作能力,SAS系统就成了最完善的ROLAP工具。当ROLAP只使用很少的关系数据库表时,这一操作是可行的。这种操作往往是针对局部性问题进行的决策支持数据分析。但面对市场的决策往往是涉及整个企业范畴的数据和信息。这就要同时启动大量的数据库表,并且要将众多表中的数据按一定的规律拟合起来,形成恰好针对所支持决策问题的数据内容。这样一个过程或许是十分复杂,且耗费大量资源。或许企业的数据是分布在若干个系统中的,这样的数据整合过程几乎是难以完成的。除此之外,在一个数据库表中的每一条记录也并不是某项决策都需要的,这要按决策支持的需要编制专用的数据筛选程序。再者,联机业务处理系统中的数据有一个特性:即每一6条记录都有产生,反复的变更、修改,直至数据记录不再变化的过程,称之为“数据到位”。例如:一个物料在一个工厂中产生了,联机业务处理系统中就要添加一条相应的记录;这个物料不断地进行加工,就要在它的记录中记入加工的参数;当这个物料加工成产品,被发货出厂,就要再登录这些出厂信息,此后,记录其生产过程的数据就再也不能修改了。如果要进行产品生产周期的分析,就只使用发货出厂后的那些物料的数据,而不能使用同一表中的正在加工的物料的数据。由此可见,直接使用联机业务处理系统中的数据进行决策支持数据的分析处理是会产生许多麻烦的,甚至是实现不了的。这时候,人们就会问为什么系统中有我需要的数据,而我却无法运用呢!这不是说关系数据库不好,而是老产品遇到了新任务。E-R型的数据结构能完美地执行联机业务处理,但不适应较大规模的决策支持数据分析,尤其不适应企业级的决策支持数据分析处理的需要。适应这一需求,应运而生的就是数据仓库技术。在W.H.Inmon所著“BuildingtheDataWarehouse”一书中给出了数据仓库的定义:“数据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据结构形式。”这一定义指出了数据仓库和事务处理系统之间的主要差异。数据仓库的目标是为了制定管理的决策提供支持信息,这显著的与OLTP系统的快速响应需要不同。正象企业为了发展要进行业务重组一样,为了支持管理决策需要也要按决策业务科目的要求重组OLTP系统中的数据,并要按不同决策,分析内容分别组织使之方便使用。这种基于主题的模式从用户角度来看就是多重的数据重组结构。在把数据装载到数据结构重组后的数据仓库之前,先要进行数据转换,或称“整合”处理。这一处理包括几个必不可少的操作步骤,做到使数据完整、统一,这就确保了在使用数据仓库时其中的数据是有质量保证的,对此后文有详述。简而言之,整合就是保证数据准确,到位,没有超出应有的数值范围,没有重复等。数据仓库中的数据不象事务处理系统中的数据那样频繁的修改,所以它是比较稳定的(不必实时修改)。在一次数据分析的执行过程中使用的数据不得变更,这才能保证两次在使用同一组信息进行分析时不会得出不同的答案。数据仓库一般是按周、月或隔月从OLTP系统周期性的批次更新数据。由于具有数据的时段稳定性,对数据仓库来说就可以减少许多传统RDBMS必须的资源消耗,如:记录的锁机制、参照完整性的检查、数据操作的日志、以及检查点/回退(Rollback)等。和OLTP的“实际事件”相比,SAS数据仓库的数据组织可呈多维时间段结构(时变的——例如:1997年各个月份的销售数据),这一数据结构供进行某一时间段众多事件的定量分析用,并产生相应的结论。从本质上说,数据仓库的目标是从联机业务处理系统中筛选出某项决策所需的支持数据,再在分析处理过程中得出进行决策时有用的信息。供分析使用的这种时变数据亦可预先归纳出若干层次的汇总数据以利决策支持使用,这样,在常规决策操作时就不必临时进行基础数据的汇总处理了。SAS系统提供的数据仓库模型是包括了数据仓库管理、组织和信息展现的整体解决方7案。这是由一族有机组合产品构成的阵容强大的模型。在下图中表示了SAS数据仓库的模型。运行的数据运行的数据关系数据库关系数据库早期数据结构早期数据结构SASSAS其它数据其它数据质量质量风险性风险性客户客户产品产品市场市场预测预测提取数据数据转换机制将数据装入数据仓库运行计划数据仓库规则、内容管理Metadata信息数据库EISOLAP查询客户机/服务器数据的可视化操作管理组织展现Web数据挖掘SAS数据仓库一览总之,数据仓库是当今社会的人们参与市场竞争等各项活动,要进行决策时的最适合的数据结构形式。是适应企业重组(Re-Engineering)时,进行企业数据、信息重组的工具。SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成效的走向市场经济的大潮。8SAS数据仓库的组成提醒您:在购买数据仓库产品时注意其必不可少的技术环节数据仓库是适应决策支持系统的需要而产生的,所以人们希望所采用的软件产品能支持决策过程的全部工作内容。SAS的数据仓库技术就是可以支持决策全过程的整体解决方案。包括:*从任何业务处理系统或数据源中取出决策所需数据*对源数据进行清理和整合*按计划或规则进行数据仓库的装载和更新*按支持决策的需要,以多种形式进行数据和信息的组织*最丰富的决策数据分析处理能力*灵活多样的结果展现方式如果您想建立决策支持系统的话,您就应当检查您所采用的软件工具是否具备上述全面的能力。SAS系统的数据存取能力从早期的SAS技术来看,它就是一个十分通用,且又十分开放的软件产品。唯有这样SAS才会在如此广泛的各种不同类型计算机系统平台和各种各样的环境中得到充分的运用。SAS有一个SAS/ACCESS产品,利用它可对众多不同格式的数据进行查询、访问和分析。SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ACCESS可建立对应外部异构数据的一个统一的共用数据界面。所提供的与外部数据的接口是透明和动态的。用户可不必将数据真的读到SAS系统中来,而只需在SAS系统中建立对外部数据的描述(亦即所谓View),便可把这些外部数据当作真正存储在SAS系统中的数据集一样使用。这时,用户即可使用这些数据进行所谓ROLAP式的数据分析和决策工作。对一些经常反复使用的外部数据,亦可利用SAS/ACCESS将其真正提取放入SAS系统中,并进一步经过整理放进数据仓库。SAS/ACCESS提