第五章SQLServer数据仓库的应用数据仓库产品数据仓库产品:著名的数据仓库产品提供商有Oracle、IBM、Sybase、Informix、NCR、Microsoft、SAS、CA等;这些产品大致可为三大类:单点产品、提供部分解决方案的产品、提供全面解决方案的产品SQLServer2000数据仓库工具关系数据库:强大的、全功能的关系数据库引擎,并且使用关系数据库技术作为数据仓库实现的基础。数据转换服务:数据转换服务DTS(DataTransformationServices)可以访问各种不同的数据源,提供数据输入/输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作。SQLServer2000数据仓库工具数据库复制:通常用于分发数据和协调联机事务处理系统(OLTP)中分布式数据的更新,也可用于数据仓库。例如,将数据从中央数据仓库分发到数据集市,以及从数据准备区更新数据仓库数据等等。AnalysisServices:提供联机分析处理(OLAP)技术,用以组织大量的数据仓库数据供客户端工具进行快速分析,并提供先进的数据挖掘技术以分析和发现数据仓库数据内的信息。SQLServer2000数据仓库工具EnglishQuery:提供用英语对数据仓库进行访问的机制。MetaDataServices:提供用于查看这些元数据的浏览器,并提供用于开发自定义元数据应用程序的应用程序接口。AnalysisService本章主要讲述如何使用AnalysisService创建及使用数据仓库的方法和步骤。AnalysisService的安装和启动AnalysisService的安装和启动连接数据源建立多维数据集建立数据库建立数据源与ODBC数据源连接建立多维数据集(事实表、时间维度、产品维度、客户维度)编辑多维数据集设计存储和处理多维数据集1.数据钻取的进入2.数据钻取选项的确定3.钻取数据列的选择4.数据钻取角色的管理在进行数据钻取前,还需要利用与编辑命令同一菜单中的“管理角色”命令确定可以进行数据钻取的管理人员。5.钻取数据的选择6.钻取结果显示创建、使用数据挖掘模型数据挖掘模型算法按用户分聚类(clustering)决策树(decisiontree)按算法意图分分类模型(classficationmodels)聚类模型(clusteringmodels)描述模型(descriptivemodels)预测模型(predictivemodels)分类模型(classficationmodels)分类模型是根据各种规格和属性对事例进行分组。响应(8%)租借(14%)拥有(7%)3个月(19%)9个月(6%)9个月(3%)有(13%)无(41%)否(4%)是(15%)租期付清存款?聚类模型(clusteringmodels)聚类模型是将所有相似特征的事例组合在一起。有小孩已婚二手车有车的高收入阶层中收入阶层低收入阶层描述模型(descriptivemodels)有时数据挖掘的目的是描述所查看的数据,通过使用描述模型,分析者可以深入了解驱动所观察到的行为的原因。预测模型(predictivemodels)预测模型是用来识别那些最易于接受新产品或促销的市场部分。数据挖掘是如何工作的?对情况进行评估分析者收集与问题相关的信息,并将信息保存于一个固定的数据存储中分析者选择可能提供答案的技术选择一个算法,并加入样本数据执行该算法。数据挖掘的周期理解情况创建模型进行分析采取行动度量结果重复理解情况创建模型进行分析采取行动度量结果数据挖掘的周期理解情况:识别机会和提出问题的过程数据挖掘的周期选择并创建一个模型根据找到的机会确定所需要的信息,考虑是否已经有一个现成的包含所需要信息的数据仓库,或者需要先收集需要信息才能够进行分析。数据挖掘的周期进行分析确定信息完整之后,使用完整的数据集来训练模型,并在这个数据集上运行数据挖掘引擎。数据挖掘的周期采取行动数据挖掘输出的结果被应用到实际中,并且行动的结果作为度量阶段的输入。数据挖掘的周期度量结果采取的行动是否正确,实际结果是否是预期的结果,预期是否正确?数据挖掘的周期重复观察新的情况,并重复以上过程。数据挖掘的工具决策树聚类分析为数据挖掘服务的OLEDB第三方工具决策树决策树是一种分类形式,其中回答一系列的二叉或是/否问题,直到事例能够归到某个特定类别中。决策树算法反复扫描数据,将它分裂成几个小组,从这些分组可以找到一组规则来描述数据。这个过程持续到某个特定点,在这点上,根据现有的参数,再进一步的分组已经没有意义了。聚类分析通过将相似的对象组成一类来组织异构对象的过程为聚类。这通常是一个无向的数据挖掘方法,有助于发现不同事例之间的联系由于它对数据未做任何假设,所以它可以标明数据中的异常,从而有助于确定下一步的挖掘动作。为数据挖掘服务的OLEDBOLEDB提供了来自不同应用程序的数据的访问,而为数据挖掘服务的OLEDB则暴露出数据挖掘类和工具,这些类和工具可以被集成到用户的应用程序中,从而可以从标准的商务应用程序中使用数据挖掘。第三方工具SPSS公司提供的ClementineDataMiningSystemsKnowledegeDiscovery,Inc.提供的KDDataMiningSuiteSAS研究所提供的EnterpriseMinerIBM公司提供的IntelligentMinerCognos公司提供的4ThoughtScenario决策树决策树用来解决预测问题决策算法识别大部分的特征,然后创建一组规则,规定了新的事例属于某一模式的概率。其结果可用清晰的语言表达,为决策者的每个决策提供统计数据。决策树的工作原理创建决策树是递归分区的过程。算法确定哪个特征最相关,并将事例按这个特征分类。每个子组重复执行这个分区的过程,直到找到一个好的停止点。决策树的工作原理这些事例有两个特征值(P1和P2)每个特征值有4个值XOXXOOXXOXOOXOOOABCD1234P1P2所有事例X=7(44%)O=9(56%)决策树的工作原理XOXXOOXXOXOOXOOOABCD1234P1P2所有事例X=7(44%)O=9(56%)P1=A,BX=5(63%)O=3(37%)P2=C,DX=2(25%)O=6(75%)决策树的工作原理XOXXOOXXOXOOXOOOABCD1234P1P2所有事例X=7(44%)O=9(56%)P1=A,BX=5(63%)O=3(37%)P2=C,DX=2(25%)O=6(75%)P1=A,BP2=1,2X=1(25%)O=3(75%)P1=A,BP2=3,4X=4(100%)O=0(0%)P1=C,DP2=1X=1(50%)O=1(50%)P1=A,BP2=2,3,4X=1(17%)O=5(83%)决策树的优点结果可视可理解的规则预测性预测的性能好显示重点决策树的缺点范围太窄。训练的性能:由于每次分裂都需要分析者决定所使用的特征,这样的计算代价是很高的,并且分析者也需要有耐心。决策类数据挖掘工具的应用1.挖掘数据源选择2.挖掘事例表选择3.挖掘技术选择挖掘事件例关键字选择4.挖掘参数选择挖掘模型完成对话框5.挖掘模型保存选择挖掘模型的处理挖掘模型编辑器6.挖掘结果浏览