实验报告院、系计算机学院年级专业计算机科学与技术姓名学号课程名称数据仓库与数据挖掘成绩指导教师同组实验者实验日期实验名称实验一基于SQLServer2005示例数据库的多维数据模型一.实验目的通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下建立多维数据模型过程的知识,训练其把教材上的内容应用到实际中的技能,为今后继续数据挖掘技术的学习奠定基础。二.实验内容在SQLServer2005示例数据仓库环境下建立多维数据模型。针对AdventureWorksCycle公司的销售分析需求,从AdventureWorksDW示例数据库中导出数据,建立并部署“销售分析”多维数据集,进而从多角度对AdventureWorksCycle公司的销售状况作分析研究。三.实验步骤1.创建一个新的数据仓库分析项目打开VisualStudio2005分析项目,选择AnalysisServeices项目,并将项目名称更改为“销售分析示例”2.定义数据源在“数据源”文件夹上右击,在弹出的快捷菜单上选择“新建数据源”命令。启动新建数据源向导,单机新建按钮。出现”连接管理器“对话框,在“提供程序”下下拉列表框中确保已选中服务账户,并命名数据源为”销售分析数据源”。3.定义数据源视图选择“数据源视图”文件夹,新建一个数据原视图。数据源选择上一步新建的“销售分析数据源”。在“可用对象”列表框中,选择下列表(同时按下Ctrl键可选择多个表)。4.定义多维数据集右键单击“多维数据集”,从弹出的快捷菜单中选择“新建多维数据集”命令;已选中“使用数据源生成多维数据集”选项和“自动生成”选项;在“时间维度表”下拉列表中选择“时间”别名。下一步设置时间维,将时间属性名称映射到已指定为“时间”维度和维度表中的相应列。选择事实表的度量值(去掉不是度量值的列),可以对度量值重新命名。设置和校验维度的属性及层次结构和属性,在“查看新建维度”页上,通过展开树控制件显示该方向导检测到的三个维度的层次结构和属性,查看其中每个维度的维度层次结构(可根据需要去掉部分为度属性)。在“完成向导”页上,将此多维数据集的名称改为“销售分析多维数据集”单击“完成”按钮,便完成了多维数据集的定义,此时仍可以对维度或度量等名称做更改,以便最终用户理解与使用。在维度设计器的“维度结构”选项卡上,可以添加,删除和编辑层次结构,级别和属性。5.部署“销售分析示例”项目若要查看刚才建立的的销售分析多维数据集中的数据,必须将其所在的项目部署到分析服务的指定实例,然后可以处理多维数据集及其维度。1)部署配置在解决方案资源管理器中,右键单击根结点“销售分析实例”项目,从弹出的快捷菜单中选择“属性”命令。在弹出的对话框中更改“数据库”对应值为AnalysisServices。2)部署项目在解决方案资源管理器中,右键单击“销售分析实例”项目,从弹出的快捷菜单中选择“部署”命令,或者在菜单栏上选择“生成”菜单,单击“部署销售分析实例”。若服务器么有安装AnalysisServices或没有启动数据库服务器,将报错“无法建立连接”,进而部署失败。查看“输出”窗口和“部署进度-销售分析实例”窗口的内容,验证是否已生成,部署完成多维数据集,没有出现错误,且在右下角显示“部署成功完成”即表示部署成功。6.浏览已部署的多维数据集部署完成后,就可以浏览多维数据集的实例数据了。浏览“销售分析实例”多维数据集及每个维度,已确定为了改进此多维数据集的功能而需要执行的更改。在解决方案中单击“客户”维度,然后选择”浏览器“选择卡。在这里,可以从各个角度浏览客户结构,现在有关客户级别的信息只显示客户的电子邮件地址,而不显示客户的姓名,需要通过后面的更改显示客户姓名,按省州分类浏览客户。单击在解决方案的“多维数据集”目录下的子项“销售分析图.cube”,切换到”浏览器”选项卡上,内容区分三个窗口:左边窗口显示事实表和维度表的元数据信息,右上窗口维度筛选器,右下窗口为报表数据显示窗口。浏览多维数据集的操作方法:从元数据窗口拖动有关内容到右边显示区或筛选器中即可形成一个初步的报表,虽然还很粗糙,特别是显示格式等有待在后续的操作中改进。展示数据的操作步骤如下:1)将事实表中的“销售额”度量值拖到数据显示区的“将合计或详细信息字段拖至此处”区域2)将客户维度表的“英语国家/地区区域名”属性层次结构拖到数据显示区的“将行字段拖至此处“区域。3)将产品维度表的“产品系列”拖到数据显示区的“将列字段拖至此处”区域;或者右键单击“产品系列”,从弹出的快捷菜单中选择“添加到列区域”命令。4)将“订单日期”维度的“季度”拖到数据显示区的“将筛选器字段拖至此处”区域,并单击“季度”下拉框,不选第四季度。5)右键单击“订单日期”维度的“年度”属性层次结构中的2002成员,然后单击“添加到子多维数据集区域”。再单击“筛选表达式”先单元格的下拉框,复选2003和2004年度即将选择2002/2003和2004这三年数据做报表。7.提高多维数据集的可用性和易用性1)修改度量值的有关属性。2)修改维度的层次结构和有关属性。3)增加维度属性。4)将命名计算列表作为弧度的成员名称。5)重新部署并查看修改。6)灵活快速地导出各类统计表。四.实验结果五.实验总结本次实验使用SQLServer2005建立多维数据模型,使我对建立多维数据模型与数据的导出过程有了简单的认识。此外,数据仓库的创建与设计过程需要先配置环境,然后建立多维数据模型。数据仓库系统建立的过程:收集与分析业务需求、建立数据仓库的概念和逻辑模型、对数据仓库做物理设计、定义数据源、选择数据仓库技术与平台、数据的ETL处理、选择数据分析与数据展示软件、数据仓库的更新设计等。数据仓库应用系统的开发包括两个部分:一是数据仓库数据库的开发与设计,用于存放数据仓库的数据;二是数据分析应用系统的开发。实验名称实验二SQLServer2005中的关联规则应用一.实验目的通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下关联规则的应用的知识,训练其把教材上的内容应用到实际中的技能,为今后继续关联规则知识的学习奠定基础。二.实验内容在SQLServer2005示例数据仓库环境下关联规则的应用。在SQLServer2005中,可以利用AnalysisServerces进行关联规则的挖掘。以系统提供的AdventureWorksDW数据库为例说明如何发现关联规则。三.实验步骤和结果1.创建AnalysisServices项目打开BusinessIntelligenceDevelopmentStudio,选择“文件”-“新建”命令,新建一个AnalysisServices项目。在“名称”文件框中将新的项目命名为AdventureWorks,单击“确定”按钮。2.创建数据源在右侧解决方案资源管理器中,右键单击“数据源”项,从弹出的快捷菜单中选择“新建数据源”命令。系统将打开数据源向导。单击“新建”按钮,向AdventureWorks数据库添加链接。系统将打开“链接管理器”对话框。在“链接管理器”对话框的“提供程序”下拉列表中选择“本机OLEDB\MicrosoftOLEDBProviderforSQLServer”选项,在“服务器名”下拉列表中选择承载AdventureWorksDW的服务器,在“选择或输入一个数据库名”下拉列表中选择AdventureWorksDW选项,再单击“确定”按钮。单击“下一步”按钮进入“模拟信息”页,选择“默认值”。此后都采取默认值,新的数据源AdventureWorksDW将显示在解决方案资源管理器的“数据源”文件夹中。3.创建数据源视图在解决方案资源管理器中,右键单击“数据源视图”,从弹出的快捷菜单中选择“新建数据源视图”命令。系统将打开数据源视图向导。在“选择数据源”页的“关系数据库”下,默认选中子啊上一步中粗昂间的AdventureWorksDW数据源。单击“下一步”按钮,在“选择表和视图”页上选择下列各表,然后单击右键头键,将dbo.vAssocSeqLineItems视图和dbo.vAssocSeqOrders视图包括在线数据源视图中,单击“下一步”按钮。在“完成向导”页上,默认情况下,系统将数据源视图命名为AdventureWorksDW。单击“完成”按钮。系统将打开数据源视图设计器,显示AdventureWorksDW数据源视图。在数据源视图设计器的数据源视图窗格中,选择vAssocSeqLineItems表的OrderNunber列。将该列拖到vAssocSeqOrders表中,并将其放到OrderNumber列上。vAssocSeqOrders和vAssocSeqLineItems表之间便存在新的多对一关系。4.创建关联挖掘结构在解决方案资源管理器中,右键单击“挖掘结构”,从弹出的快捷菜单中选择“新建挖掘结构”命令,在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”选项,再单击“下一步”按钮。在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”列表框中选择“Microsoft关联规则”选项,再单击“下一步”按钮。“选择数据源”页随即显示。默认情况下,“可用数据源视图”下的AdventureWorksDW为选中状态。单击“下一步”按钮,在“指定表类型”页上选择vAssocSeqOrder表右边的“示例”复选框,选中vAssocSeqLineItems表右边的“嵌套”复选框。关联模型必须包含一个键列、多个输入队列以及一个可预测列。输入队列必须为离散列。关联模型的输入数据通常包含在两个表中。单击“下一步”按钮,在“指定定型数据”页上依次清除CustomerKey右边的“键”复选框和LineNumber右边的“键”和“输入”复选框。选中Model列右边的“键”和“可预测”复选框。然后系统也将自动选中“输入”复选框。单击“下一步”按钮,在“指定列的内容和数据类型”页上单击“下一步”按钮。在“完成向导”页的“挖掘结构名称”输入Assocoation,再单击“完成”按钮。系统将打开数据挖掘设计器,显示刚刚创建的Association挖掘结构。5.设置关联规则挖掘的参数首先打开数据挖掘设计器的“挖掘模型”选项卡,右键单击设计器网格中的“关联”列,从弹出的快捷菜单中选择“设置算法参数”命令。系统将打开“算法参数”对话框,在“算法参数”对话框的值列出设置以下参数。MINIMUM_SUPPORT=0.01MINIMUM_PROBABILITY=0.1然后单击“确定”按钮。MINIMUM_SUPPORT指定在该算法生成规则之前必须包含项集的事例的最小数目。将该值设置为小于1,将指定最小事例数最为事例总计的百分比;将该值设置为大于1的整数,将指定最小事例数作为必须包含项集的事例的绝对数。默认值为0.03.MINIMUM_PROBABILITY指定规则为True的最小概率。6.建立关联规则挖掘模型由于已经定义了“关联”挖掘模型的结构和参数,可以对该模型进行处理。选择“挖掘模型”菜单的“处理挖掘结构和所有模型”选项,系统将打开“处理挖掘结构-Association对话框。单击“运行”按钮,系统将打开“处理进度”对话框,以显示有关模型处理的信息。7.查看挖掘结果处理完成之后,“选择挖掘模型查看器”,第一个页面是挖掘到的频繁集。或者打开第二个页面,查看挖掘出来的规则。四.实验总结通过本次实验,对数据仓库中关联规则的应用以及如何发现关联规则有了简单的了解,通过使用AnalysisServices服务进行关联规则模型的建立和处理,以可视化的方式查看模型结果对关联规则有了根本的了解。关联规则可以反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,其中一个事物就能通过其他事物预测到。实验名称实验三SQLServer2005中决策树的应用一实验目的通过本实验的学习,使学生掌握在SQLServer2005示例数据仓库环境下决策树的应