潘怡编著《数据仓库与数据挖掘》课程实验指导书长沙学院计算机科学与技术系2009年9月前言本书是《数据仓库与数据挖掘》课程及《数据分析与挖掘》的实验指导书。全书分为三个部分,第一部分为实验内容对每个实验的实验目的、实验类型、实验学时、实验原理及知识点、实验环境(硬件环境、软件环境)和实验内容及步骤进行简单介绍,第二部分为实验指导对每个实验的实验方法,实验步骤及补充的实验知识进行详细介绍,第三部分为实验报告。本实践课程主要介绍数据仓库的工作机理及其构建过程,。要求学生熟练使用数据库管理系统MSSQLServer,掌握典型的数据仓库系统及其开发工具的使用,理解数据挖掘的工作原理与流程,掌握典型数据挖掘技术及其工具的使用方法,熟悉SQLSERVERBIDEV集成挖掘环境。要求学生实验前认真准备,实验后提供实验报告,给出详细设计方法以及设计依据。实验报告的格式应采用统一封面,统一的实验报告纸。封面应包括:课程名称、实验序号、名称、专业、班级、姓名、同组实验者、实验时间。实验报告内容应包括:实验名称、目的、内容、实验步骤、实验记录、数据处理(或原理论证、或实验现象描述、或结构说明等)。目录第一部分实验内容实验1:实践SQLServer数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第二部分实验指导实验1:实践SQLServer数据多维分析环境实验2:实践关联规则挖掘方法实验3:实践决策树挖掘方法实验4:实践聚类挖掘方法实验5:实践神经网络挖掘方法第三部分实验报告第一部分实验内容实验1:实践SQLServer数据多维分析环境一.实验目的学习和掌握SqlServer2005AnalysisServices工具集,包括如何在BIDevelopmentStudio的AnalysisServices项目中定义数据源、数据源视图、维度、属性、层次结构和多维数据集,如何查看多维数据集和维度,理解并掌握OLAP分析的基本过程与方法。二.实验类型验证型三.实验学时4学时四.实验原理及知识点1.SQLServer服务2.服务器注册3.系统数据源连接4.数据源视图处理5.多维数据集6.事实表和维度表;7.星型架构模型;8.元数据结构。五.实验环境1.硬件设备要求:PC及其联网环境;2.软件设备要求:操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。六.实验内容及步骤I.建立SqlServer2005数据挖掘实验环境1.启动SQLServer服务,打开BI开发环境2.注册服务器3.建立系统数据源连接4.建立数据库和数据源视图5.浏览多维数据集数据6.编辑多维数据集数据II.实践多维数据集分析假设一连锁超市的用户需求如下,从无到有设计一个数据仓库的基本架构,要求能够满足以下查询:1.查询公司在2005年的总销售金额2.查询公司在2005年第一季度的销售金额3.查询公司在2005年上半年的销售金额4.查询某供应商s1于2005年提供产品p1的金额总量5.查询某供应商s1于2005年提供某产品p1的金额总量6.查询某门市店d1于2005年共销售某一种商品p1的总金额7.查询公司在2005年度共销售多少金额类别为c1的商品p1的总金额根据要求:1.建事实表和维度表2.设计星型架构模型3.分析元数据结构。七.思考与练习1.什么是SQLSever2005BIDEVSTUDIO?它包含几个主要部分?2.如何注册服务器?3.如何设计数据源视图?4.如何建立多维数据集?5.什么是事实表和维度表?6.什么是星型架构?7.什么是元数据?实验2:实践关联规则挖掘方法一.实验目的学习和掌握使用SqlServer2005进行关联规则数据挖掘,了解并掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法,能够使用挖掘准确性图表,了解模型的提升图,能够创建数据挖掘报告。二.实验类型设计型三.实验学时4学时四.实验原理及知识点1.SQLServer挖掘结构2.SQLServer挖掘模型3.事实表4.嵌套表5.键6.输入列7.可预测列8.挖掘参数五.实验环境1.硬件设备要求:PC及其联网环境;2.软件设备要求:操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。六.实验内容及步骤1.数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2.创建数据源3.创建数据源视图4.创建挖掘结构5.创建挖掘模型6.使用模型查看器查看挖掘模型7.使用挖掘准确性图表查看模型8.使用挖掘模型预测窗口9.创建数据挖掘报告实验3:实践决策树挖掘方法一.实验目的学习和掌握使用SqlServer2005进行决策树挖掘,选择合适的数据进行决策树分析,并尝试给出合理解释(例如,使用案例数据库建立给客户分群的决策树挖掘模型,或者判断学生升学意向)。在实验过程中了解并掌握挖掘模型的参数意义及设置方法,能够使用数据挖掘向导创建数据挖掘结构和模型,要求使用柱状图等方式展现最终挖掘结果。二.实验类型设计型三.实验学时4学时四.实验原理及知识点1.Hunt算法2.最佳划分的度量方法3.信息熵增益五.实验环境1.硬件设备要求:PC及其联网环境;2.软件设备要求:操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。六.实验内容及步骤1.数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2.创建数据源3.创建数据源视图4.创建挖掘结构5.创建挖掘模型6.使用模型查看器查看挖掘模型7.使用挖掘准确性图表查看模型8.使用挖掘模型预测窗口9.创建数据挖掘报告实验4:实践聚类挖掘方法一.实验目的学习和掌握使用SqlServer2005进行聚类挖掘,选择合适的数据进行聚类分析,并尝试给出合理解释在实验过程中了解并掌握挖掘模型的参数意义及设置方法,能够使用数据挖掘向导创建数据挖掘结构和模型,要求能够掌握模型察看方法。二.实验类型设计型三.实验学时4学时四.实验原理及知识点1.K-mean算法五.实验环境1.硬件设备要求:PC及其联网环境;2.软件设备要求:操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。六.实验内容及步骤1.数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2.创建数据源3.创建数据源视图4.创建挖掘结构5.创建挖掘模型6.使用模型查看器查看挖掘模型7.使用挖掘准确性图表查看模型8.使用挖掘模型预测窗口9.创建数据挖掘报告实验5:实践神经网络挖掘方法一.实验目的学习和掌握使用SqlServer2005进行神经网络数据挖掘,了解并掌握挖掘结构、挖掘模型的基本概念,能够使用数据挖掘向导创建数据挖掘结构和模型,掌握数据挖掘设计器的使用方法,掌握模型查看器方法,能够使用挖掘准确性图表,了解模型的提升图,能够创建数据挖掘报告。二.实验类型设计型三.实验学时4学时四.实验原理及知识点1.神经网络的拓扑2.神经网络的组合和激活3.神经网络的反向传播、误差函数4.神经网络的处理五.实验环境1.硬件设备要求:PC及其联网环境;2.软件设备要求:操作系统Windows,SQLServer2005,SQLServer2005BIDEVSTUDIO。六.实验内容及步骤1.数据准备选定待分析数据库或多维数据集,对所需数据进行必要地提取、清洗和校验,为挖掘工作做好数据准备。2.创建数据源3.创建数据源视图4.创建挖掘结构5.创建挖掘模型6.使用模型查看器查看挖掘模型7.使用挖掘准确性图表查看模型8.使用挖掘模型预测窗口9.创建数据挖掘报告第二部分实验指导实验1:实践SQLServer数据多维分析环境I.建立SqlServer2005数据挖掘实验环境一.SQLSEVER2005安装1)SQLServer2005的一般部署步骤当你第一次把SQLServer2005的CD或者DVD光盘放到Server里的时候,你会看到一个引导窗口(图A),上面是产品介绍和运行须知。图ASQLServer2005的引导页面。要注意的是,即使你是用单张DVD进行安装,这个页面顶部的文字显示的还是“光盘1/2(Disc1of2)”。要开始安装,就要选择“安装(Install)”标题下的“Server组件、工具、在线工具书和示例(Servercomponents,tools,BooksOnline,andsamples)”选项。弹出的第一个画面是产品的最终用户许可证协议。你需要勾选“我接受协议条款和条件(Iacceptthelicensingtermsandconditions)”,点击“下一步(Next)”按钮继续。我在这里就不列出许可证页面了。你对此可能已经很熟悉了。下一个画面(图B)显示的是安装程序要提前安装的一些程序。.NET框架2.0是这里的关键。如果你决定在同一台Server上安装SQLServer2005以及其他应用程序,那就要确保它们都能够使用这个框架。点击“安装(Install)”按钮来安装这些项目。当这些项目安装完毕后,你可以点击“下一步”按钮。图B当所有需要预先安装的程序都安装到你的系统里之后,SQLServer2005的安装向导就会启动。安装向导完成的第一项任务是扫描你的系统,以确保它满足SQLServer2005的最低要求。在下面的图C里,你会看到系统检测提示有两个方面存在问题。第一个是硬件的最低要求。它之所以出现是因为我是用虚拟机来安装SQLServer2005的,而虚拟机分配到的内存只有384兆,这个问题很容易解决。第二个是要求具有Internet信息服务功能(IISFeatureRequirement),这个有点严重。SQLServer2005的一些服务,例如报告服务(ReportingServices)要求使用IIS。所以,继续安装之前,我要退出SQLServer2005的安装过程,再在Server上安装IIS。之后,才能继续进行安装。图C系统检测会检查出一些存在的问题,这样你可以在安装之前就解决它们,从而避免一些可能发生的错误。安装的下一步(图D)就相当简单了。填好你的名字、公司名和产品密钥。点击“下一步”继续。图D在这一画面里,你需要选希望与SQLServer2005一起安装的组件。如果这是你的第一台Server,那么就要选上SQLServer数据库服务(SQLServerDatabaseServices)选项。为了保证完整性,我安装了所有的服务,但是本文不会讨论故障转移集群。如果你想要选择更加详细的选项,或者更改默认的安装路径(C:ProgramFilesMicrosoftSQLServer),点击“高级(Advanced)”按钮,然后会弹出一个更加常见的功能选择窗口。下面的图E向你显示的是“组件选择(ComponentSelection)”画面。在图F里,显示的是“高级(Advanced)”画面。在窗口里,点击“下一步(Next)”继续安装。图EQLServer2005的主要组件选择画面。图FSQLServer2005引入了SQLServer命名实例(namedinstance)的概念。你可以选择升级已有的命名实例(图G),你也可以选择在安装SQLServer2005时默认的实例。在本文的例子里,我使用的“默认(Default)”选项。图G择你的实例。正如以往,SQLServer服务需要使用特定的验证信息登录到系统。你可以选择让所有的SQL服务都共享相同的验证信息,或者你可以为每个服务都提供自己的登录验证信息,我建议在进行更大范围安装时使用后面这种方式。但是,在本文里,我让所有的服务都共享一个帐号,并使用内置的“本地系统(LocalSystem)”帐