数据仓库与数据挖掘SPSS实验指导书资料

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《数据仓库与数据挖掘》实验指导书(适用于信息系统与信息管理专业)目录前言..............................................................................................................................................1实验一、SPSSClementine软件功能演练....................................................................................6实验二、SPSSClementine数据可视化......................................................................................10实验三、决策树C5.0建模..........................................................................................................18实验四、关联规则挖掘.................................................................................................................31实验五、欺诈屏蔽/异常检测/神经网络.......................................................................................39实验六、分类和回归树节点(C&RT)...........................................................................................52实验七、多项Logistic回归........................................................................................................62实验八、综合实验:电力负荷预测.............................................................................................68前言一、课程简介数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD),因此,数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。数据挖掘有机结合了来自多学科技术,其中包括:数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析等,这里我们强调数据挖掘所处理的是大规模数据,且其挖掘算法应是高效的和可扩展的。通过数据挖掘,可从数据库中挖掘出有意义的知识、规律,或更高层次的信息,并可以从多个角度对其进行浏览察看。所挖掘出的知识可以帮助进行决策支持、过程控制、信息管理、查询处理等等。因此数据挖掘被认为是数据库系统最重要的前沿研究领域之一,也是信息工业中最富有前景的数据库应用领域之一。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。二、课程的任务和实验的教学目标课程编号:5405190课程属性:专业任选课实验学时:12适用专业:信息管理与信息系统先修课程:管理信息系统、计算机基础、数据库技术、统计学《数据仓库与数据挖掘》是一门理论和实践相结合的课程,它在整个信息系统与信息管理专业中处于信息系统应用的前沿应用的地位,是计算机科学的算法理论基础和数据库、数据仓库技术、统计技术的结合,以及在管理实践中应用。其上机实验的目的主要是实现数据挖掘的主要算法,训练学生实际动手进行数据挖掘设计和软件应用的能力,加深对数据挖掘相关概念和算法的理解。本课程具有技术性和实践性较强的特点,因此,配合基本原理的讲授,应当安排相应的实习操作。通过实验和操作,使学生巩固和加深数据仓库与数据挖掘理论知识,进一步加强学生独立分析问题和解决问题的能力、综合设计及创新能力的培养,为今后工作打下良好的基础。经过多层次、多方式的全面训练后,学生应达到下列要求:1.进一步巩固和加深数据仓库与数据挖掘基本知识的理解,提高综合运用所学知识,建立和管理数据的能力。2.能根据需要选学参考书,查阅相关的工具,通过独立思考,深入钻研有关问题,学会自己独立分析问题、解决问题,具有一定的创新能力。3.能正确处理大规模数据,选择数据挖掘工具的开发平台和相关的软件解决实践问题。4.能独立撰写实验报告,准确分析实验结果,总结有关的问题,提出相关的建议。三、实验教材及参考书理论课教材及参考书:数据仓库与数据挖掘教程(丛书名:高等院校信息管理与信息系统专业系列教材)作者:陈文伟编著,清华大学出版社,2006.8数据仓库和数据挖掘,苏新宁等编著,清华大学出版社,2006.4数据仓库与数据挖掘技术(第2版),陈京民编著,电子工业出版社,2007.11JiaweiHan,MichelineKamber.DataMining:ConceptsandTechniques.高等教育出版社(影印版),2001.5.IanH.Witten,EibeFrank.DataMining:PracticalMachineLearningToolsandTechniques(第二版).机械工业出版社(影印版),2005.RichardJ.Roiger,MichaelW.Geatz.DataMining:ATutorial-BasedPrimer.清华大学出版社,2003.实验教材:数据挖掘Clementine应用实务,谢邦昌主编,机械工业出版社,2008.4数据挖掘原理与SPSSClementine应用宝典,元昌安主编,电子工业出版社,2009.8四、实验基本内容及学时分配按照《数据仓库与数据挖掘》实验教学大纲的要求,共设立实验8个,总计20学时。试验基本内容与学时分配如下表:序号实验名称实验学时每组人数实验属性实验者类别开出要求1SPSSClementine软件功能演练21演练本科必开2实验二、SPSSClementine数据可视化21演练本科必开3决策树C5.0建模21验证综合本科必开4关联规则挖掘21验证综合本科必开5欺诈屏蔽/异常检测/神经网络21验证综合本科必开6分类和回归树节点(C&RT)21验证综合本科必开7多项Logistic回归21验证综合本科必开8实验八、综合实验:电力负荷预测61综合实验本科必开五、实验方式与基本要求1、本课程的实验为非单独设课,因此,应该课程的内容安排和进度,配合技术原理的讲授,进行相应的操作和实验。2、该课以综合性实验为主,教师给出实验题目,实验前学生必须进行预习,3、在规定的时间内,由学生独立完成,出现问题,教师要引导学生独立分析、解决,不得包办代替。4、实验中按要求做好学生实验情况及结果记录,实验后认真填写实验记录。5、实验指导书仅作为上机时的参考步骤,不能作为唯一的依据,以教材和课堂讲授为准。实验一、SPSSClementine软件功能演练【实验目的】1、熟悉SPSSClementine软件功能和操作特点。2、了解SPSSClementine软件的各选项面板和操作方法。3、熟练掌握SPSSClementine工作流程。【实验内容】1、打开SPSSClementine软件,逐一操作各选项,熟悉软件功能。2、打开一有数据库、或新建数据文件,读入SPSSClementine,并使用各种输出节点,熟悉数据输入输出。(要求:至少做access数据库文件、excel文件、txt文件、可变文件的导入、导出)【实验步骤】1、启动Clementine:请从Windows的“开始”菜单中选择:所有程序SPSSClementine11.1SPSSClementineclient11.12、Clementine窗口当第一次启动Clementine时,工作区将以默认视图打开。中间的区域称作流工作区。在Clementine中,这将是用来工作的主要区域。Clementine中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创建图形和构建模型。要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释放。随后可将各个图标连接以创建一个表示数据流动的流。窗口的右上方是输出和对象管理器。这些选项卡用于查看和管理各种Clementine对象。“流”选项卡包含了当前会话中打开的所有流。可以将这些流保存并关闭,也可将其添加到工程中。“输出”选项卡包含了由Clementine中的流操作产生的各类文件。可以显示、重命名和关闭此处所列的表格、图形和报告。“模型”选项卡是一个功能强大的工具,包含了在一次会话中产生的所有模型(即,已在Clementine中构建完毕的模型)。通过它,可以对模型作更深入的查看、将其添加至流中、导出或为其加注解。窗口右侧底部的部分是工程工具,它用来创建和管理数据挖掘工程。查看在Clementine中创建的工程有两种方式-类视图或CRISP-DM视图。“CRISP-DM”选项卡提供了一种组织工程的方式。“类”选项卡提供了一种在Clementine中按类别(即,按照所创建对象的类别)组织工作的方式。当要获取数据、流、模型等对象的详尽目录时,这种视图十分有用。实验二、SPSSClementine数据可视化【实验目的】1、熟悉SPSSClementine绘图。2、了解SPSSClementine图形选项面板各节点的使用方法。3、熟练掌握SPSSClementine数据可视化流程。【实验内容】1、打开SPSSClementine软件,逐一操作各图形选项面板,熟悉软件功能。2、打开一有数据库、或新建数据文件,读入SPSSClementine,并使用各种输出节点,熟悉数据输入输出。(要求:至少做分布图、直方图、收集图、多重散点图、时间散点图)【实验步骤】1、启动Clementine:请从Windows的“开始”菜单中选择:所有程序PSSClementine11.1SPSSClementineclient11.12、建立一个流、导入相关数据,打开图形选项面板3、绘制以下各类图形(1)以颜色为层次的图(2)以大小为层次的图(3)以颜色、大小、形状和透明度为层次的图(4)以面板图为层次的图(5)三维收集图(6)动画散点图(7)分布图(8)直方图(9)收集图(10)多重散点图未标准化时的多重散点图标准化后的多重散点图(11)网络图实验三、决策树C5.0建模【实验目的】1、熟悉SPSSClementine建模方法。2、掌握SPSSClementine分布图、散点图、网络图的创建方法。3、掌握决策树C5.0决策方法。【实验内容】1、创建散点图。2、创建分布图。3、创建网络图。【实验步骤】假设你是一位正在汇总研究数据的医学研究员。已收集了一组患有同一疾病的患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应。的任务就是通过数据挖掘找出适合治疗此疾

1 / 71
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功