数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

王超存03M0310001零售业巨头“沃尔玛”从大量销售数据中分析出来的规律——美国的男士在下班后要去超市买婴儿尿布,他们在购买尿布的同时会买啤酒。“沃尔玛”因此将这两种“毫不相干”的商品摆放在靠近的货架上,并在其间摆放一些下酒小菜,使这些商品销售量大增。美国NBA的教练利用IBM公司提供的数据挖掘应用软件AdvancedScout工具,临场决定替换队员,在与迈阿密热队的比赛中,AdvancedScout帮助魔术队成功分析了不同的队员布阵的相对优势,并找到了战胜迈阿密热队的方法。Safeway是英国的第三大连锁超市,年销售额超过一百亿美元。Safeway发现某一种乳酪产品虽然销售额排名较靠后,排在第209位,可是有25%消费额最高的客户都常常买这种乳酪,这些客户是Safeway最不想得罪的客户。因此,这种产品相当重要。数据挖掘的概述数据挖掘在教育领域的应用数据挖掘的定义数据挖掘的分类数据挖掘的过程数据挖掘的应用领域数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。一、数据挖掘的定义数据挖掘技术是一门综合性的技术领域,主要涉及数据库、人工智能和数理统计3个技术领域。还有很多和数据挖掘相近似的术语,如知识发现、数据分析、数据融合(DataFusion)以及决策支持等。人工智能领域习惯称知识发现,而数据库领域习惯称数据挖掘。一、数据挖掘的定义从挖掘对象划分:关系数据库面向对象数据库空间数据库时间数据库文本数据源多媒体数据库Web数据库等二、数据挖掘的分类从所发现的知识类型划分:广义知识(Generanlizaition):根据数据的微观特性发现其表征的、带有普遍意义的、较高层次概念的或宏观的知识。分类知识(Classification):反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识,用于反映数据的汇聚模式或根据对象的属性区分其所属类别。二、数据挖掘的分类从所发现的知识类型划分:关联知识(Association):反映一个事件和其他事件之间依赖或关联的知识,又称依赖关系。预测知识(Predicition):通过时间序列型数据,由历史的和当前的数据去预测未来的情况。它实际上是一种以时间为关键属性的关联知识。二、数据挖掘的分类从挖掘方法划分:机器学习方法:归纳学习方法、基于案例学习、遗传算法等统计方法:回归分析、判别分析、聚类分析、探索性分析等神经网络方法:前向神经网络、自组织神经网络等数据库方法:多维数据分析方法、面向属性的归纳方法等二、数据挖掘的分类1.问题定义(TaskDefinition):明确具体应用希望得到什么样的结果。2.数据准备(DataPreparation):大约整个数据挖掘工作量的60%。—数据选取—数据预处理—数据变换三、数据挖掘的过程3.数据挖掘(DataMining):根据问题定义明确挖掘目的,如分类、聚类、关联规则发现或序列模式发现,并且根据数据特点和用户要求来决定所用的挖掘算法。4.结果的解释和评估(InterpretationandEvaluation):数据挖掘的结果由分析人员根据发现知识的领域重要性、可信度和支持度等阀值来对发现结果进行评价,并以用户能理解和观察的方式将发现的知识呈现给用户。三、数据挖掘的过程金融业—对账户进行信用等级的评估—分析信用卡的使用模式—进行股票分析—探测金融政策与行情间的关系保险业—保险金的确定—险种关联分析—其他预测四、数据挖掘的应用领域零售业—分析顾客的购买行为和习惯—分析商场的销售商品的构成科学研究市场营销……四、数据挖掘的应用领域数据挖掘的概述数据挖掘在教育领域的应用数据挖掘及其运用于教学评价的设想数据挖掘在高校招生工作中的应用前景数据挖掘在个性化学习系统中的运用数据挖掘在现代远程教育中应用的探讨数据挖掘在网络学习者学习特征分析系统中应用数据挖掘在远程教育个性化服务中的应用基于数据挖掘的远程学习者网上学习行为研究CSCL中基于数据挖掘的角色分析研究……一、应用方面学生成绩分析就是发现两个或多个数值表示的属性之间的函数关系。在现有的成绩数据库中,对一些课程的成绩进行分析,确定它们之间是否存在一函数关系,若有的话,函数关系又是怎样的,这样,一方面就可以通过确定出来的函数关系,预测学生未来一些课程的成绩。另一方面,根据课程之间的依赖关系,确定某些课程对其它课程依赖的强弱并进行比较,为以后的关联规则的挖掘提供有效的数据。二、案例——学生成绩分析在数据挖掘之前,对学生成绩分析需要有一定的知识和了解,有效的分析方向和分析思路可以使我们在设计和利用数据挖掘时更“有的放矢”,无目的的挖掘犹如大海捞针,事倍功半甚至一无所获。在一个学生成绩数据集合的基础上,我们可以采用数据挖掘分析方法来进行尝试性的挖掘。这里采用的是关联分析和序列分析。二、案例——学生成绩分析1.关联分析关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测。它的目的是为了挖掘隐藏在数据间的相互关系。二、案例——学生成绩分析学生成绩统计分析表姓名专业科目成绩甲国际贸易高等数学92甲国际贸易宏观经济学88乙国际贸易高等数学90乙国际贸易宏观经济学84丙国际贸易高等数学85丙国际贸易宏观经济学87丁国际贸易高等数学83丁国际贸易宏观经济学79戊国际贸易高等数学76戊国际贸易宏观经济学73己国际贸易高等数学75己国际贸易宏观经济学70庚国际贸易高等数学70庚国际贸易宏观经济学68辛国际贸易高等数学76辛国际贸易宏观经济学83确定两个参数:(1)最小置信度c,用来过滤可能性过小的规则,不妨设为0.3;(2)最小支持度s,表示这种规则发生的概率,即可信度,不妨设为0.3;二、案例——学生成绩分析设规则“高等数学成绩高于80分同时宏观经济学成绩也高于80分”的置信度为c,支持度为s,则可以得出:c=高等数学成绩高于80分同时宏观经济学成绩也高于80分的人数/高等数学成绩高于80分的人数s=高等数学成绩高于80分同时宏观经济学成绩也高于80分的人数/总人数可以得出“高等数学成绩高于80分同时宏观经济学成绩也高于80分”的置信度c为0.75,支持度s为0.375。二、案例——学生成绩分析学生成绩统计分析表姓名专业科目成绩甲国际贸易高等数学92甲国际贸易宏观经济学88乙国际贸易高等数学90乙国际贸易宏观经济学84丙国际贸易高等数学85丙国际贸易宏观经济学87丁国际贸易高等数学83丁国际贸易宏观经济学79戊国际贸易高等数学76戊国际贸易宏观经济学73己国际贸易高等数学75己国际贸易宏观经济学70庚国际贸易高等数学70庚国际贸易宏观经济学68辛国际贸易高等数学76辛国际贸易宏观经济学83设规则“高等数学成绩低于80分同时宏观经济学成绩也高于80分”的置信度为c,支持度为s,则可以得出:c=高等数学成绩低于80分同时宏观经济学成绩高于80分的人数/高等数学成绩低于80分的人数s=高等数学成绩低于80分同时宏观经济学成绩高于80分的人数/总人数可以得出“高等数学成绩低于80分同时宏观经济学成绩也高于80分”的置信度c为0.25,支持度s为0.125。二、案例——学生成绩分析学生成绩统计分析表姓名专业科目成绩甲国际贸易高等数学92甲国际贸易宏观经济学88乙国际贸易高等数学90乙国际贸易宏观经济学84丙国际贸易高等数学85丙国际贸易宏观经济学87丁国际贸易高等数学83丁国际贸易宏观经济学79戊国际贸易高等数学76戊国际贸易宏观经济学73己国际贸易高等数学75己国际贸易宏观经济学70庚国际贸易高等数学70庚国际贸易宏观经济学68辛国际贸易高等数学76辛国际贸易宏观经济学83通过有效的关联分析,我们可以得出如下结论“高等数学成绩高于80分的学生中有75%宏观经济学成绩也高于80分”、“高等数学成绩低于80分的学生中有25%宏观经济成绩也高于80分”,也就是说高等数学成绩高的学生大部分宏观经济学成绩也会高,而高等数学成绩低的学生中只有小部分宏观经济学成绩才会高,即高等数学和宏观经济学这两门课程之间有一定的关联性。当然这个结论仅对本样本有效,我们就可以将关联分析结论作为挖掘出的关联性的知识。二、案例——学生成绩分析2.序列分析序列分析的数学原理和关联分析相似。是指通过挖掘事物之间的关系确定两个或多个事物之间存在一定的选后顺序。它的目的是为了挖掘隐藏在数据间的相互先后顺序。二、案例——学生成绩分析学生学习科目记录时间序列表姓名科目时间成绩姓名科目时间成绩甲高等数学1996.580甲pascal语言1996.1285乙高等数学1996.576乙pascal语言1996.1282丙高等数学1996.583丙pascal语言1996.1280丁高等数学1996.570丁pascal语言1996.1276戊pascal语言1996.576戊高等数学1996.1280己pascal语言1996.578己高等数学1996.1278庚pascal语言1996.580庚高等数学1996.1284辛pascal语言1996.572辛高等数学1996.1275该样本是一组学生涉及的各种选课的时间序列表,对这个样本集来说,我们可以通过数据挖掘,得到授课的先后关系。我们不妨设最小置信度为0.3,最小支持度为0.3,规则可以定义为“先选A课的人后选B课且B课成绩高于80分”,则c=先学A课的人后学B课且B课成绩高于80分的人数/先学A课后学B课的总人数s=先学A课的人后学B课且B课成绩高于80分的人数/总人数得出的结果置信度c为0.75,支持度s为0.375二、案例——学生成绩分析学生学习科目记录时间序列表姓名科目时间成绩姓名科目时间成绩甲高等数学1996.580甲pascal语言1996.1285乙高等数学1996.576乙pascal语言1996.1282丙高等数学1996.583丙pascal语言1996.1280丁高等数学1996.570丁pascal语言1996.1276戊pascal语言1996.576戊高等数学1996.1280己pascal语言1996.578己高等数学1996.1278庚pascal语言1996.580庚高等数学1996.1284辛pascal语言1996.572辛高等数学1996.1275假设规则定义为“选B课且成绩高于80分但没曾经选过A课”,则:c=选B课且成绩高于80分但没曾经选过A课/选B课但没曾经选过A课s=选B课且成绩高于80分但没曾经选过A课/总人数得出的结果置信度c为0.25,支持度s为0.125二、案例——学生成绩分析学生学习科目记录时间序列表姓名科目时间成绩姓名科目时间成绩甲高等数学1996.580甲pascal语言1996.1285乙高等数学1996.576乙pascal语言1996.1282丙高等数学1996.583丙pascal语言1996.1280丁高等数学1996.570丁pascal语言1996.1276戊pascal语言1996.576戊高等数学1996.1280己pascal语言1996.578己高等数学1996.1278庚pascal语言1996.580庚高等数学1996.1284辛pascal语言1996.572辛高等数学1996.1275通过有效的序列分析,我们可以得出如下结论“上学期选高等数学学生中75%的学生下学期选pascal语言成绩高于80分”、“上学期选pascal语言的学生但下学期学过高等数学的有25%未达80分以上”,显然,先学高等数学再学pascal语言对学pascal语言有帮助。我们就可以将序列分析结论作为挖掘出的知识,对安排课程的先后顺序有指导意义。二、案例——学生成绩分析

1 / 36
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功