《数据仓库与数据挖掘》课程实验指导实验一数据仓库的构建一、实验目的及要求(一)实验目的1.理解数据库与数据仓库之间的区别与联系;2.掌握数据仓库建立的基本方法及其相关工具的使用。(二)实验要求利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。二、实验设备及软件基于NT的局域网络,服务器与客户端安装MSSQLServer服务系统以及AnalysisServices系统。三、实验内容以SQLServer为系统平台,设计、建立数据库,并以此为基础创建数据仓库。四、实验步骤1.启动SQLServer服务启动SQLServer实例时即启动了SQLServer服务。启动SQLServer服务之后,用户便可与服务器建立新连接。SQLServer服务可在本地或远程作为MicrosoftWindowsNT®4.0或Windows®2000服务启动和停止。2.启动MSSQLServerOLAPServicesSQLServer服务若是默认实例,则被称为MSSQLServer;若是命名实例,则被称为MSSQL$instancename。3.建立系统数据源连接⑴Microsoft®WindowsNT®4.0用户:单击“开始”按钮,指向“设置”,单击“控制面板”,然后双击“数据源(ODBC)”。⑵Windows®2000用户:单击“开始”按钮,指向“设置”,单击“控制面板”,然后双击“管理工具”,再双击“数据源(ODBC)”。⑶在“系统DSN”选项卡上单击“添加”按钮。⑷选择“MicrosoftAccess驱动程序(*.mdb)”,然后单击“完成”按钮。⑸在“数据源名”框中,输入“教程”,然后在“数据库”下,单击“选择”。⑹在“选择数据库”对话框中,浏览到“C:\ProgramFiles\MicrosoftAnalysisServices\Samples”,然后单击“FoodMart2000.mdb”。单击“确定”按钮。4.建立数据库和数据源⑴如何建立数据库结构①在AnalysisManager树视图中展开“AnalysisServers”。②单击服务器名称,即可建立与AnalysisServers的连接。③右击服务器名称,然后单击“新建数据库”命令。④在“数据库”对话框中的“数据库名称”框中,输入“教程”,然后单击“确定”按钮。⑤在AnalysisManager树窗格中展开服务器,然后展开刚才创建的“教程”数据库。⑵建立数据源在AnalysisManager树窗格中,右击“教程”数据库下的“数据源”文件夹,然后单击“新数据源”命令。在“数据链接属性”对话框中,单击“提供者”选项卡,然后单击“MicrosoftOLEDBProviderforODBCDrivers”。①单击“连接”选项卡,然后从“使用数据源名称”列表中单击“教程”。②单击“测试连接”以确保一切工作正常。在“Microsoft数据链接”对话框中应出现一条消息,说明连接成功。在消息框中单击“确定”按钮。③单击“确定”按钮关闭“数据链接属性”对话框。5.建立多维数据集您现在的身份是FoodMartCorporation的数据库管理员。FoodMart是一家大型的连锁店,在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析1998年进行的所有销售业务数据。使用存储在公司数据仓库中的数据,您就能建立多维数据结构(多维数据集),以便在市场分析人员查询数据库时获取快速的响应。建立一个多维数据集,用于进行销售分析。⑴打开多维数据集向导在AnalysisManager树窗格中,“教程”数据库下,右击“多维数据集”文件夹,单击“新建多维数据集”菜单,然后单击“向导”命令。⑵向多维数据集添加度量值度量值是要进行分析的数据库中的量化值。常用的度量值为销售、成本和预算数据。度量值根据多维数据集不同的维度类别进行分析。①在多维数据集向导的“欢迎”步骤,单击“下一步”按钮。②在“从数据源中选择事实数据表”步骤,展开“教程”数据源,然后单击“sales_fact_1998”。③单击“浏览数据”按钮可以查看“sales_fact_1998”表中的数据。数据浏览完毕后,关闭“浏览数据”窗口,然后单击“下一步”按钮。④若要定义多维数据集的度量值,在“事实数据表数据列”下,双击“store_sales”。对“store_cost”和“unit_sales”列重复此步骤,然后单击“下一步”按钮。⑶建立时间维度在向导的“选择多维数据集的维度”步骤,单击“新建维度”命令。此操作将调用维度向导。①在“欢迎”步骤,单击“下一步”按钮。②在“选择维度的创建方式”步骤,选择“星型架构:单个维度表”选项,然后单击“下一步”按钮。③在“选择维度表”步骤,单击“time_by_day”。单击“浏览数据”按钮可以查看包含在“time_by_day”表中的数据。查看完“time_by_day”表后,单击“下一步”按钮。④在“选择维度类型”步骤,选择“时间维度”选项,然后单击“下一步”按钮。⑤接下来,将定义维度的级别。在“创建时间维度级别”步骤,单击“选择时间级别”,单击“年、季度、月”,然后单击“下一步”按钮。⑥在“选择高级选项”步骤,单击“下一步”按钮。⑦在向导的最后一步,输入“Time”作为新维度的名称。⑧单击“完成”返回到多维数据集向导。⑨在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Time”维度。⑷建立产品维度①再次单击“新建维度”命令。在“欢迎进入维度向导”步骤,单击“下一步”按钮。②在“选择创建维度的方式”步骤,选择“雪花架构:多个相关维度表”选项,然后单击“下一步”按钮。③在“选择维度表”步骤,双击“Product”和“product_class”将它们添加到“选定的表”。单击“下一步”按钮。④在维度向导的“创建和编辑联接”步骤,显示在上一步选定的两个表以及它们之间的联接。单击“下一步”按钮。若要定义维度的级别,在“可用的列”下,按顺序双击“product_category”、“product_subcategory”和“brand_name”。双击每列后,其名称显示在“维度级别”下。在选择了所有三列后,单击“下一步”按钮。在“指定成员键列”步骤,单击“下一步”按钮。在“选择高级选项”步骤,单击“下一步”按钮。在向导的最后一步,在“维度名称”框中,输入“Product”,并保持“与其它多维数据集共享此维度”复选框为选中状态。单击“完成”按钮。现在应能在“多维数据集维度”列表中看到“Product”维度。⑸建立客户维度①单击“新建维度”命令。②在“欢迎”步骤,单击“下一步”按钮。③在“选择创建维度的方式”步骤,选择“星型架构:单个维度表”选项,然后单击“下一步”按钮。④在“选择维度表”步骤,单击“Customer”,然后单击“下一步”按钮。⑤在“选择维度类型”步骤,单击“下一步”按钮。⑥若要定义维度的级别,在“可用列”下,按顺序双击“Country”、“State_Province”、“City”和“lname”列。双击每一列后,其名称将显示在“维度级别”下方。选择完所有四个列之后,单击“下一步”按钮。⑦在“指定成员键列”步骤,单击“下一步”按钮。⑧在“选择高级选项”步骤,单击“下一步”按钮。⑨在向导的最后一步,在“维度名称”框中,输入“Customer”。保持“与其它多维数据集共享此维度”复选框的选中状态。单击“完成”按钮。⑩在多维数据集向导中,现在应能在“多维数据集维度”列表中看到“Customer”维度。⑹完成多维数据集的生成①在多维数据集向导中,单击“下一步”按钮。②在“事实数据表行数”消息给出提示时,单击“是”按钮。③在多维数据集向导的最后一步,将多维数据集命名为“Sales”,然后单击“完成”按钮。④向导将关闭并随之启动多维数据集编辑器,其中包含刚刚创建的多维数据集。单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子。实验二多维数据组织与分析(OLAP)一、实验目的及要求(一)实验目的1.理解维(表)、成员、层次(粒度)等基本概念及其之间的关系;2.理解多维数据集创建的基本原理与流程;3.理解并掌握OLAP分析的基本过程与方法;(二)实验要求利用实验室指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出多维数据组织模型及其OLAP操作过程。实验完成后,应根据实验情况写出实验报告。二、实验设备及软件基于NT的局域网络,服务器与客户端安装MSSQLServer服务系统、AnalysisServices系统。三、实验内容1.运用AnalysisServer工具进行维度、度量值以及多维数据集的创建(模拟案例)。2.使用维度浏览器进行多维数据的查询、编辑操作。3.对多维数据集进行切片、切块、旋转、钻取操作。四、实验步骤1.编辑多维数据集⑴使用多维数据集编辑器向现有的Sales多维数据集添加维度。可以使用以下两种方法启用多维数据集编辑器:①在AnalysisManager树窗格中右击一个现有的多维数据集,然后单击“编辑”命令。②使用多维数据集编辑器直接创建新的多维数据集。除非您是高级用户,否则不建议使用本方法。③如果您是从上一节的操作接着下来的,则应该已经在多维数据集编辑器中。④在多维数据集编辑器的“架构”窗格中,可以看到事实数据表(黄色标题栏)及联接的维度表(蓝色标题栏)。在多维数据集编辑器树窗格中,可以在层次树中预览多维数据集的结构。通过单击左窗格中底部的“属性”按钮,可以编辑多维数据集的属性。⑵使用存储设计向导设计存储①在AnalysisManager树窗格中,在“教程”数据库下展开“多维数据集”文件夹,右击“Sales”多维数据集,然后单击“编辑”命令。②在“欢迎”步骤中单击“下一步”按钮。③选择“MOLAP”作为数据存储类型,然后单击“下一步”按钮。④在“设置聚合选项”下单击“性能提升达到”。在此框中输入“40”作为指定百分比。⑤此操作指示AnalysisServices将性能提升到40%,而不管需要多大的磁盘空间。管理员可以用此优化能力平衡查询性能需求和存储聚合数据所需磁盘空间大小。⑥单击“启动”按钮。⑦在AnalysisServices设计聚合时,您可以查看向导右边的“性能与大小”图。从中可以看出增加性能提升对使用额外磁盘空间的需求。完成设计聚合的进程之后,单击“下一步”按钮。2.浏览多维数据集数据使用多维数据集浏览器对Sales数据进行切片和切块。⑴如何使用多维数据集浏览器查看多维数据集数据①在AnalysisManager树窗格中,右击“Sales”多维数据集,然后单击“浏览数据”命令。②出现多维数据集浏览器,显示由多维数据集的一个维度和度量值组成的网格。其它四个维度显示在浏览器的上方。⑵如何替换网格中的维度①要用另一个维度替换网格中的维度,拖动上方框中的维度,然后直接将该维度放在要与其交换的列上。确保在此过程中,指针的形状为双端箭头。②使用这种拖放方法,选择“Product”维度按钮并将其拖动到网格上,然后直接放在“Measures”上方。“Product”维度和“Measures”维度在多维数据集浏览器中将交换位置。注意:如果想将维度添加到网格,而不是用另一个维度进行替换,则将该维度拖动到网格的中间。⑶按时间筛选数据单击“Time”维度旁边的箭头。展开“所有Time”和“1998”节点,然后单击“Quarter1”。将对网格中的数据进行筛选,使筛选出的数据为仅反映该季度情况的数字。使用拖放方法交换“Product”和“Customer”维度。单击“Product”并将其拖到“Country”维度上。双击网格中包含“BakingGoods”的单元。多维数据集展开以包括子类别列。完成后,单击“关闭”按钮关闭多维数据集浏览器。3.编辑多维数据集使用多维数据集编