第9章数据仓库应用实例9.1数据仓库的数据加载与钻取9.2数据挖掘模型的设计9.3SQLServer中的数据挖掘工具9.4数据仓库客户端界面的设计9.1数据仓库的数据加载与钻取9.1.1数据仓库的数据加载1.SQLServer的数据复制工具与应用5个有关复制的向导工具:创建和管理发布、强制其它服务器订阅、请求订阅、禁用发布和分布、配置发布、订阅服务器和分发SQLServer数据复制向导2.创建发布向导利用发布向导可以完成这样一些操作:选择发布数据库。使用发布模板。选择发布类型。选择可更新的订阅。可传送的订阅(快照复制或事务复制可使用的选项)。指定订阅服务器类型。指定要发布的数据和数据库对象项目。选择发布名称和描述。自定义发布属性,包括筛选列、筛选行、启用动态筛选器、验证订阅信息、优化同步、允许匿名订阅以及设置快照代理调度,以完成数据发布的创建。数据发布的开始需要在数据发布服务器上打开SQLServer企业管理器,展开一个服务器组,展开复制文件夹,右击发布文件夹,然后单击“新建发布”命令,按照向导提示完成数据的分布创建。3.创建强制新订阅向导在强制订阅中,集中的分发服务器将建立调度,按照此调度与远程的、偶尔连接的订阅服务器进行连接。使用强制订阅,分发代理程序(用于快照发布和事务发布)或合并代理程序(用于合并发布)可以运行于分发服务器。建立订阅时要考虑的因素是需要订阅的类型(强制、请求或匿名)以及运行复制代理程序的位置。为了创建订阅,发布服务器上必须有发布,订阅服务器上也必须有订阅数据库。可以在创建订阅之前创建订阅数据库,或在创建强制订阅向导中指定新的订阅数据库。可以为任何在发布服务器和分发服务器的属性中启用的订阅服务器创建强制订阅。3.创建强制新订阅向导4.创建请求订阅向导5.禁用发布或分布向导在SQLServer的企业管理器中的“工具”菜单中打开向导菜单项,调出“选择向导”对话框,选择其中的“复制”节点,选择“禁用发布或分布向导”菜单项。,进入“欢迎使用禁用发布或分布向导”对话框。利用该向导可以完成“除去所选服务器上的所有发布”或“除去对应已除去发布的所有订阅”这些设置不会影响到该服务器从其它发布服务器接受到的订阅。9.1.2超市数据仓库系统的数据加载数据仓库的数据导入9.1.2超市数据仓库系统的数据加载DTS数据导入/导出向导9.1.2超市数据仓库系统的数据加载数据导入源的选择9.1.2超市数据仓库系统的数据加载数据导入源的确定9.1.2超市数据仓库系统的数据加载数据导入目的库选择9.1.2超市数据仓库系统的数据加载数据导入方式选择9.1.2超市数据仓库系统的数据加载导入数据表和视图的选择9.1.2超市数据仓库系统的数据加载数据导入源和目的的映射确定9.1.2超市数据仓库系统的数据加载数据导入的转换语言9.1.2超市数据仓库系统的数据加载数据导入任务包的保存与调度9.1.2超市数据仓库系统的数据加载任务包的作业调度任务包的保存任务包完成提示任务包的浏览9.1.3多维数据集的更新DTS调度包的建立处理任务框架选择处理对象调度任务处理选项确定任务的建立任务工作流确定任务工作流属性设置DTS包的保存任务包的调度设置任务包的运行时间设置9.1.4数据仓库的钻取访问1.数据钻取的进入2.数据钻取选项的确定3.钻取数据列的选择4.数据钻取角色的管理在进行数据钻取前,还需要利用与编辑命令同一菜单中的“管理角色”命令确定可以进行数据钻取的管理人员。5.钻取数据的选择6.钻取结果显示9.1.5数据仓库的多维表达式MDX应用MDX启动顺序:开始→程序→MicrosoftSQLServer→AnalysisServices→MDX示例应用程序。启动MDX以后将出现Connect对话框,在Server输入框中输入AnalysisServices服务器名称,Provider输入框中输入MSOLAP,单击“OK”按钮后,出现示例应用程序窗口MDX新查询建立MDX查询结果显示MDX的立方体旋转显示9.2数据挖掘模型的设计9.2.1数据挖掘对象的分析数据挖掘项目组成员超市营销策略评价主要通过门市、商品、营销策略、日期和客户五个维度。要分析的则是商品的销售量、销售额、商品的成本和商品销售的利润等度量信息。商品销售量增长率=(实施促销策略后商品销售量/实施促销策略前商品销售量-1)×100%商品销售额增长率=(实施促销策略后商品销售额/实施促销策略前商品销售额)×100%商品利润增长率=(实施促销策略后商品利润/实施促销策略前商品利润)×100%商品促销策略门市影响率=不同门市相同促销策略商品利润增长率之比商品促销策略时间影响率=不同时间相同促销策略商品利润增长率之比等各种新的变量。9.2.2数据挖掘模型与相关数据的准备1.挖掘模型的确定在过去的若干年中的业务趋势是什么?在业务的不同分类中有哪些最活跃的因素?不同的元素之间是否存在相关性?最感兴趣的分类存在哪些地方?不同的分类有哪些层次?客户分成“接收促销”、“不接收促销”两个分类。将客户分成三个不同的聚类,它们的特征分别有哪些?销售额前10个商品聚类是什么?它们彼此之间有哪些不同之处?有时为了解决一些较大的业务问题,可能还需要对业务问题进行分解,将业务问题分解成多个较小的问题。如果这些问题能够使用分类、估计、关联分组、聚类、细分或预测等挖掘方法来解决。那么这一较大的问题也就可以用数据挖掘方法解决。9.2.2数据挖掘模型与相关数据的准备将客户流失问题分解成这样一些问题:①那些已经或正在流失的客户具有哪些特征?②能否建立一个预测正在流失客户的模型,预测客户流失行为的发生?③能否建立一个模型,进一步预测那些将要流失的客户会在什么时候流失?④能否建立一个模型解释这些流失客户为什么流失?对这些分解以后的问题就可以使用不同的数据挖掘方法来解决。9.2.2数据挖掘模型与相关数据的准备①可以使用聚类方法将流失的客户分成不同的组,这就能够很好地说明那些流失客户的特征。对问题②,则可以将所有客户划分到“流失”和“不流失”两个客户类中,这就可以预测那些可能流失的客户。同时,这种分类也可以用来解释问题④。而对于问题③则可以变换一下角度来考虑,即开发一个预测模型,预测客户会在“近期”、“中期”、“远期”流失,这样就可以将所有客户分成“近期”、“中期”、“远期”三个流失类。9.2.2数据挖掘模型与相关数据的准备确定挖掘模型的分析目标或挖掘成功的度量值度量值的确定步骤:收集企业的关键战略领域报表、识别企业信息量化的度量指标、对这些度量指标进行编码、识别数据挖掘解决业务问题的度量指标、对度量指标设定基线。例如,在超市数据挖掘中经常进行度量的指标有:购买商品的客户百分比、对促销策略响应的客户数、客户购买商品的平均量、某一时间段购买商品的总量或总金额、商品销售的利润率。在确定了度量值以后,还要确定这些度量值的当前值,以便在数据挖掘以后,采取相应对策后的比较。2.挖掘数据的准备建立数据挖掘库:选择业务数据、转换业务数据、验证业务数据。为数据挖掘工作准备训练数据集与数据验证集:确定数据质量、准备适当的数据、为目标变量确定初值、确定数据挖掘变量的格式。9.2.3数据挖掘模型的应用注意多目标变量之间的相互关系确定多目标变量最终的分析顺序剔除那些对目标变量具有强相关性的变量挖掘模型的维护和完善将所获得挖掘结果存储进多维数据集9.3SQLServer中的数据挖掘工具MSSQLServer2000中的AnalysisServices可以对关系数据库和多维数据源中的数据进行挖掘,因此任何利用OLEDB可以访问的关系数据源数据以及通过AnalysisServices创建的多维数据集的数据都可以训练挖掘模型。而且SQLServer系统的可扩展性使第三方工具能够与SQLServer的数据挖掘工具组装使用,提高了系统的性能与灵活性。AnalysisServices中所提供的数据挖掘模型主要是两种:Microsoft决策树模型和Microsoft数据聚集模型。