1计算机科学与技术系数据挖掘实验报告姓名:学号:授课教师:完成时间:2数据挖掘实验报告评分论文书面实际得分文章结构安排合理,具有逻辑性5分论文写作规范,引注正确5分论文条理清晰,有理有据10分文章理论阐述全面,解决问题10分文章能够围绕主题合理讨论,有自己的独立见解,分析问题透彻10分实验过程以及结果实验数据转换正确5分实验数据预处理合理10分实验模型的建立以及参数的选取合理有效5分实验模型的评价方法正确20分实验结果正确20分总计得分3目录1数据挖掘综述............................................................................................................41.1什么是数据挖掘.............................................................................................41.2数据挖掘的功能.............................................................................................41.3数据挖掘的一般流程.....................................................................................52关联规则挖掘............................................................................................................52.1什么是关联规则挖掘及Apriori算法.........................................................52.2Apriori算法实验..........................................................................................62.2.1数据集介绍............................................................................................62.2.2数据预处理............................................................................................62.2.3模型建立................................................................................................62.2.4实验结果................................................................................................72.2.5结果讨论..............................................................................................123分类..................................................................................................................133.1什么是分类及分类算法...............................................................................133.2NaïveBayes算法实验................................................................................153.2.1数据集介绍..........................................................................................153.2.2数据预处理..........................................................................................153.2.3模型建立..............................................................................................153.2.4实验结果..............................................................................................163.2.5结果讨论..............................................................................................203.3决策树算法实验...........................................................................................223.3.1数据集介绍..........................................................................................223.3.2数据预处理..........................................................................................223.3.3模型建立..............................................................................................223.3.4实验结果..............................................................................................224小结..................................................................................................................285参考文献..................................................................................................................2841数据挖掘综述1.1什么是数据挖掘数据挖掘(DataMining)是指从大量数据中提取或“挖掘”知识。主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。1.2数据挖掘的功能1.2.1自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。1.2.2关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。1.2.3聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。1.2.4概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。1.2.5偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。51.3数据挖掘的一般流程数据挖掘的基本过程和主要步骤过程中各步骤的大体内容如下:1.3.1确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.1.3.2数据准备1)数据的选择搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.2)数据的预处理研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.3)数据的转换将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.1.3.3数据挖掘对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.1.3.4结果分析解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.1.3.5知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去.2关联规则挖掘2.1什么是关联规则挖掘及Apriori算法关联规则挖掘:6从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。Apriori算法:Apriori算法利用频繁项集性质的先验知识(priorknowledge),通过逐层搜索的迭代方法,即将k-1项集用于探察k项集,来穷尽数据集中的所有频繁项集。先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描。2.2Apriori算法实验2.2.1数据集介绍1、使用银行对资产进行评估的数据bank-data.csv,数据里有12个属性,分别是id,age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep.共600个实例。2、本测试集中将pep属性作为分类的目标类别。2.2.2数据预处理数据转换:将实验数据从csv文件格式转换成arff文件格式。1.去除无用属性在区域5勾选属性“id”,并点击“Remove”。将新的数据集保存一次,重新打开。接下来演示“RemoveType”2.离散化有些算法(如关联规则),只能处理所有的属性都是分类型的情况。这时候我们就需要对数值型的属性进行离散化。在这个数据集中有3个变量是数值型的,分别是“age”,“income”和“children”。3.属性类型转换No
本文标题:数据挖掘实验报告
链接地址:https://www.777doc.com/doc-6406053 .html