数据挖掘王成(副教授)华侨大学计算机科学与技术学院教材课程目标理论部分理解数据挖掘的任务和步骤掌握基本的数据挖掘算法实践部分(实验部分)使用数据挖掘工具做一些简单的数据分析掌握基本数据挖掘算法的代码实现(不限编程语言,建议用MATLAB)计划课程内容周数据挖掘概述1聚类算法2-4分类算法5-7回归分析8-9关联分析10-11推荐系统12-13算法效果评估14大数据处理及应用15应用专题16-17复习和总结18作业及考核实验作业40%期末大论文作业50%考勤情况10%主要内容什么是数据挖掘行业前景示例:学生分组主要任务回归预测推荐系统我们处在数据爆炸的时代一天发出2940亿封邮件,相当于美国两年纸质信件的数量一天的社区论坛上发出200万个帖子,相当于《时代》杂志770年的文字量每天有1.72亿人登陆Facebook,4000万人登陆Twitter每天“状态”的更新达5.32亿人,在Facebook上传2.5亿张图片.......一天,互联网上产生的全部内容可以刻满1.68亿张DVD我们处在数据爆炸的时代我们拥有如此海量的数据,要如何好好利用它呢?对于企业来说,海量数据的运用将成为未来竞争和增长的基础如何运用好数据,从数据中挖掘出潜在的、不为人知的有用信息,是数据挖掘这门学科的主要内容随着网民参与互联网产品和应用的程度越来越深,互联网将更加智能,互联网的数据量也将呈爆炸式增长大数据时代•大交易数据:来自电商的数据,包括B2B、B2C、C2C、团购等•大交互数据:来自社交网络的数据,SNS、微博等•两类数据的有效融合将是大势所趋,这种融合更能增强企业的商业洞察力大数据时代•大数据的特征3V——Volume(海量)、Variety(多样)、Velocity(实时)•海量——数据量巨大,对TB、PB数据级的处理,已经成为基本配置。•多样——处理多样性的数据类型,结构化数据和非结构化数据,能处理Web数据,能处理语音数据甚至是图像、视频数据。•实时——在客户每次浏览页面,每次下订单的过程中都存在,都会需要对用户进行实时的推荐,决策已经变得实时大数据时代什么是数据挖掘数据挖掘(DataMining)是从海量数据中抽取出潜在的、不为人知的有用信息、模式和趋势模式:标志了事物之间隐藏的规律关系你能从下面四个人的兴趣爱好中发现什么模式吗?李雷韩梅梅露西莉莉喜欢打篮球喜欢看书喜欢听音乐喜欢看球赛喜欢踢足球喜欢韩剧喜欢韩剧喜欢打羽毛球是麦迪粉丝喜欢都教授喜欢李东健喜欢登山喜欢看CCTV5喜欢逛街喜欢逛街喜欢看CCTV5兴趣爱好中的模式:喜欢运动的都喜欢看体育频道喜欢看韩剧的也都喜欢逛街...什么是数据挖掘数据挖掘过程必须是自动的或半自动的(用计算机)数据的总量总是相当可观的,但从中发现的模式必须是有意义的,并能产生一些效益,通常是经济上的效益数据挖掘-多学科交叉的领域数据挖掘数据库技术统计学其它...信息论机器学习可视化什么是机器学习机器学习(MachineLearning)研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能数据挖掘所涉及的大部分技术已在机器学习领域开发出来传统机器学习并不把海量数据作为处理对象,如果直接把这些技术用于海量数据,效果可能很差,甚至可能用不起来。因此,数据挖掘界做了很多工作,对这些技术进行了专门的改造数据挖掘作为一个独立的学科领域,也有一些相对“独特”的东西,例如关联分析扩展阅读:主要内容什么是数据挖掘行业前景示例:学生分组主要任务:聚类、分类、关联分析回归预测推荐系统Netflix大奖赛Netflix是美国一家视频网站,用户浏览其网站时,网站会给用户推荐他没看过的影片,国内的优酷等视频网站都有相似功能Netflix在2006年启动了Netflix大奖赛,奖金是100万美元,颁发给能将他们的影片推荐准确率提高10%的团队Netflix当时年收入是14亿美元,如果推荐系统准确率提升了10%...为什么需要数据挖掘身边的应用AndrewNg加盟百度2014年5月17日,百度官方宣布,任命吴恩达(AndrewNg)为首席科学家,全面负责百度研究院。吴恩达何许人也?著名人工智能科学家。是斯坦福大学计算机科学教授及斯坦福人工智能实验室的负责人;2011年,他加盟Google并创立了“Google大脑”项目,因此也被誉为“Google大脑之父”。人才需求人才需求人才需求主要内容什么是数据挖掘行业前景示例:学生分组主要任务回归预测推荐系统示例1写一段程序将下表学生分成三个组,你会怎么写?有可能让计算机在未事先制定任何分组规则的前提下自动分组吗?姓名成绩小塔小姚小艾小明小军小王小林小洪9080656020152378示例1:使用算法自动分组结果示例2:稍微复杂一点的分组例子写一段程序将下列学生分成三组,你会怎么写?注:各个数字代表喜欢的程度,范围是0-10,0表示不喜欢,10表示非常喜欢学生编号喜欢吃零食喜欢看韩剧喜欢打篮球喜欢玩游戏ABCDEF8800480100100028210856181示例2:使用算法自动分组结果主要内容什么是数据挖掘行业前景示例:学生分组主要任务回归预测推荐系统数据挖掘的主要任务数据总结聚类分类关联分析数据总结对数据进行浓缩,给出它的总体综合描述将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握最简单的数据总结方法是利用统计学中的传统方法,计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等聚类聚类(Clustering)解决的是事物分组的问题,目的是将类似的事物放在一起前面对学生进行分组的过程即聚类聚类算法分类分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。把每个数据点分配到合适的类别中,即所谓的“分类”分类算法邮件正常邮件垃圾邮件例如,邮件系统接收到一封陌生邮件时,算法能识别出该邮件是否垃圾邮件。聚类能将一堆邮件分成两组,但不知道哪组是垃圾邮件分类算法的训练为了回答“这是一只船”的问题,我们需要先“训练”分类算法,告诉它“什么样的东西是船”经过训练,算法所学习到的知识称为“模型”,接下来算法可以利用训练得到的“模型”来回答“这是什么”的问题分类的两个步骤训练模型:对一个类别已经确定的训练集创建模型用于创建模型的数据集叫做训练集每一条记录都属于一个确定的类别(class)模型使用:用创建的模型预测未来或者类别未知的记录估计模型的准确率:使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较。测试集和训练集是独立的分类过程:训练模型训练集天气气温湿度适合运动晴中中雨低高晴高低...是否否分类算法模型IF气温低THEN不适合运动......分类过程:使用模型未分类数据(天气晴,温度高,湿度中等)分类算法模型不适合运动有监督和无监督学习监督学习(Supervisedlearning)训练集是带有类标签的,例如邮件系统中针对每封训练邮件,都标记好是否垃圾邮件学习是在训练样本的“指导”下操作的,“指导”指每个训练样本都有一个明确的结论(类别),故称有“监督”学习分类算法是有监督的机器学习算法无监督学习(Unsupervisedlearning)学习不是在训练样本的“指导”下操作的让计算机自己去学习怎样做一件事情聚类算法是无监督的机器学习算法关联分析(AssociationAnalysis)去超市购买东西时,我们经常会一起购买多种商品,有些商品的关联是非常明显的,比如铅笔和作业本,所以它们经常被放在同一货架上但有些商品的关联却不那么显而易见,但这种关联一定是隐藏在大量的销售数据中从大规模数据集中寻找物品间的隐含关系的过程称为关联分析关联分析(AssociationAnalysis)你能发现下面的销售数据中的关联规则吗?尿布→啤酒尿布→豆奶...主要内容什么是数据挖掘行业前景示例:学生分组主要任务:聚类、分类、关联分析回归预测推荐系统预测表白成功率表白是一件极其危险的事情,表白成功了就从此快乐幸福,失败了则可能连朋友都做不成但是我相信这背后一定有某种潜在的“模式”,如果可以使用数据挖掘和机器学习技术找到其背后的模式,训练出一个模型,那我们就可以在表白前先预测表白的成功率,以避免不必要的尴尬。这可行吗?预测表白成功率表白成功与否和女生的特点以及表白方式应该会有关系,例如是否喜欢看韩剧,是否喜欢运动,性格是内外还是外向,是否在公开场合表白...我们用x1,x2,x3...来表示这些特征,再用y来表示表白成功率。y和x1,x2,x3...应该会呈现出某种关系,我们把它写成如下形式:其中w1,w2,w3是一些未知参数,我们假设y和x1,x2,x3...通过w1,w2,w3来产生关系x1,x2,x3...都是已知的,假如我们可以通过某种方式得到w1,w2,w3...的值,那就可以得到y的值,即表白成功率!如何得到w1,w2,w3...的值?使用数据挖掘和机器学习技术,从大量别人的表白经验中“学习”出来回归预测寻求变量之间近似的函数关系,建立起回归方程,并用于预测例子中的变量间呈线性关系,故称为线性回归回归算法可用于分类,属于有监督学习“回归”的由来弗朗西斯·高尔顿爵士(SirFrancisGalton,1822-1911),英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高,则其子女身高倾向于向上生长,以更接近于大众平均身高。此现象,被Galton称之为回归现象,即Regression主要内容什么是数据挖掘行业前景示例:学生分组主要任务:聚类、分类、关联分析回归预测推荐系统推荐系统(RecommendationSystem)推荐系统,也叫个性化推荐系统个性化推荐是指根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品总结数据挖掘是指从海量数据中挖掘知识/模式的过程模式给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是数据挖掘的重要支撑技术聚类:将数据划分成不同的分组。是无监督学习算法分类:将数据划分到合适的类别中。是有监督学习算法关联分析:从大规模数据集中寻找物品间的隐含关系的过程回归预测:寻求变量之间近似的函数关系,建立起回归方程,并用于预测谢谢!