数据挖掘徐光美xxtguangmei@buu.edu.cn教材JiaweiHan,MichelineKamber.数据挖掘:概念与技术.北京:机械工业出版社,2001.8月(有最新版本)创办了ACMTKDD学报并任主编,华人数据挖掘界的先驱和拥有最高成就的学者参考书2020年2月24日星期一数据挖掘3米歇尔是卡内基梅隆大学的教授,讲授“机器学习”等多门课程;美国人工智能协会(AAAL)的主席;美国《MachineLearning》杂志、国际机器学习年度会议(ICML)的创始人(英)汉德(DavidHand)是伦敦帝国大学数学系统计学教授。参考书(美)陈封能,(美)斯坦巴赫,(美)库玛尔著,范明等译。IntroductiontoDataMining.北京:人民邮电出版社,2011.国外很多名校采用的数据挖掘教材,内容较全面考核方式总评成绩=平时成绩*50%+期末作业成绩*50%平时成绩=课堂讲解成绩+课堂讨论和出勤成绩精读一篇核心期刊以上级别的文献:研究动机、具体方法、解决了何种问题、效果如何。用PPT在课堂上讲解上述问题不少于10分钟。并详细讲解该论文涉及的算法。期末提交1份大作业:研究动机、具体方法、解决了何种问题、效果如何、你认为该文章有哪些优缺点、应该如何解决、参考文献(至少5篇)2020年2月24日星期一数据挖掘5数据挖掘从业人员的收入数据挖掘从业人员的收入路漫漫其修远兮课程介绍数据挖掘兴起的背景数据挖掘的相关概念数据挖掘的主要任务主要内容Why:数据挖掘的产生海量数据被收集利用数据获取有用知识的有效方法有限2020年2月24日星期一数据挖掘10数据挖掘的社会需求数据挖掘数据库越来越大有价值的知识可怕的数据数据挖掘的社会需求数据爆炸,知识贫乏苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期课程介绍数据挖掘兴起的背景数据挖掘的相关概念数据挖掘的主要任务主要内容数据挖掘发展简史数据挖掘的定义--1Dataminingisthenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsfromhugevolumeofdata.U.FayyadetalKDD’96数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程数据挖掘的定义--2分析少量数据无需利用数据挖掘错误的模式价值不大不能仅仅挖掘出常识挖掘出的模式一般用于辅助进一步的决策挖掘出的模式要呈现给决策者数据挖掘并不像SQL查询那样容易数据库中的知识发现KDD数据挖掘与KDD数据挖掘属于KDD数据挖掘是KDD的一个核心步骤数据挖掘包含了KDD数据挖掘的对象不局限于数据库数据挖掘等于KDD越来越多的学者和业界人士赞同此观点挖掘何种数据--1文件关系数据库交易数据库每个记录代表一个事务:包括每次交易的唯一标识号和组成该事务的项例:TIDItems1Bread,Milk2Bread,Diaper,Beer,Eggs3Milk,Diaper,Beer,Coke4Bread,Milk,Diaper,Beer5Bread,Milk,Diaper,Coke数据仓库从一个或多个数据源搜集到的信息储存库,存放在一个一致的模式下,通常驻留在单个站点。数据清理数据变换数据集成数据装入定期刷新过程数据汇总组织特定主题:顾客、商品和活动等用多维数据库结构建模适合于OLAP清理变换集成装入刷新数据仓库查询与分析工具客户客户异地数据源2020年2月24日星期一数据挖掘21多媒体数据库图像、视频和音频数据。(image/videoretrieval)空间数据库包含涉及空间的信息地图数据库VLSI集成电路蛋白质分子3D空间排列时间序列数据库不同时间重复测量得到的值或事件的序列构成Ex:股票数据,环境、气象监测数据、工业测量数据等特点:趋势。循环、周期、突变Web数据Title:CNN.comInternationalH1:IAEA:IranhadsecretnukeagendaH3:EXPLOSIONSROCKBAGHDAD…TEXTBODY(withpositionandfonttype):TheInternationalAtomicEnergyAgencyhasconcludedthatIranhassecretlyproducedsmallamountsofnuclearmaterialsincludinglowenricheduraniumandplutoniumthatcouldbeusedtodevelopnuclearweaponsaccordingtoaconfidentialreportobtainedbyCNN…Hyperlink:•URL:•AnchorText:AIoaeda…Image:•URL:•Alt&Caption:Irannuclear…AnchorText:CNNHomepageNews…挖掘何种数据--5Comparingwith2011thedatatypeswiththehighestgrowth:XMLdatatext(free-form)socialnetworkdataThedatatypeswiththedecliningpopularity:music/audioimages/video,挖掘多大的数据商用数据挖掘软件开源数据挖掘软件数据挖掘的应用领域数据挖掘方法的来源Z.-H.Zhou.Threeperspectivesofdatamining.ArtificialIntelligence,2003,143(1).课程介绍数据挖掘兴起的背景数据挖掘的相关概念数据挖掘的主要任务主要内容数据挖掘的主要任务—1预测/分类型通过学习和推理进行预测/分类分类、回归、偏差检测描述型对数据的一般特征进行概括聚类、关联规则、序列模式分类—定义给定记录的集合(训练集)每条记录包含若干个属性,其中一个是类别属性,其它的称为条件属性。找出一个以类别属性为结论,以其它属性的值为条件的分类模型目标:尽量精确地给出事先未知记录的类别属性的值用测试集来检验模型的精度。分类—例子TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10RefundMaritalStatusTaxableIncomeCheatNoSingle75K?YesMarried50K?NoMarried150K?YesDivorced90K?NoSingle40K?NoMarried80K?10TestSetTrainingSetModelLearnClassifier分类—应用直销营销(DirectMarketing)只给最有可能购买某种商品的客户邮寄宣传材料,节省宣传费用方法利用以前类似产品的数据已知数据中的{买、不买}构成了类别属性搜集与这类客户相关的个人、生活方式等信息,如居住地、收入等使用这些信息作为条件属性来学习分类器。聚类—定义给定一组数据,每条数据包含一组属性,根据数据间的相似度量,把这些数据分成不同的组群,使得:同一群中的数据尽量相似群与群之间的差别尽量明显相似度量若属性值是连续的,一般使用Euclidean距离其它适用于不同具体问题的相似度量聚类的展示三维空间中基于Euclidean距离的聚类类内距离最小类间距离最大聚类—应用文本聚类目标:根据文本中关键词出现的频率找出若干组内容相似的文本方法:找出每篇文本中频繁出现的词。根据关键词出现的频率给出度量文本相似程度的指标。使用该指标进行聚类。文本聚类的展示对象:LosAngelesTimes的3204篇文章相似度量指标:这些文章中相同关键词的数目关联规则—定义给定一组记录,每条记录由若干个项目组成,找出一些项目出现将导致另一些项目出现的规则TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,MilkRulesDiscovered:{Milk}--{Coke}{Diaper,Milk}--{Beer}关联规则—应用1营销假设发现的规则为{Bagels,…}--{PotatoChips}PotatoChips为后件=可以用来决定哪些商品可以促进PotatoChips的销售Bagels为前件=可以用来决定若对Bagels搞促销,将影响哪些商品的销售Bagels为前件且Potatochips为后件=可用来决定哪些商品可以和Bagels一起对Potatochips进行促销关联规则—应用2超市货架管理目标:确定经常被大量客户一起购买的商品.方法:利用POS机搜集的销售数据找出项目之间的关联序列模式给定一系列具有时间属性的对象(事件),发现不同事件的强序列依赖关系(AB)(C)(DE)回归回归是通过具有已知值的变量来预测其它变量的值在统计、神经网络领域有广泛的应用例如:根据广告费用来预测新产品的销售量根据温度、湿度和压强来预测风力偏差/异常检测从正常的行为中检测重要的偏差应用:信用卡欺诈甄别网络入侵检测挖掘结果的评价客观评价方法基于统计和模式的结构,如support和confidence主观评价方法基于用户对数据的信任程度,如unexpectednessL.Q.Geng,H.J.Hamilton.InterestingnessMeasuresforDataMining:ASurvey.ACMComputingSurveys,2006,38(3).Top-10AlgorithmFinallySelectedatICDM’06#1:C4.5(61votes)-决策树算法#2:K-Means(60votes)-聚类算法#3:SVM(58votes)-分类#4:Apriori(52votes)-关联规则#5:EM(48votes)-数据收敛#6:PageRank(46votes)-网页权威性测度#7:AdaBoost(45votes)-迭代算法#7:kNN(45votes)-k最近邻分类#7:NaiveBayes(45votes)-分类#10:CART(34votes)-分类与回归重要资源2020年2月24日星期一数据挖掘492020年2月24日星期一50参考文献源DataminingandKDD(SIGKDDmemberCDROM):Conferenceproceedings:KDD,andothers,suchasPKDD,PAKDD,ICDMetc.Journal:DataMiningandKnowledgeDiscoveryDatabasefield(SIGMODmemberCDROM):Conferenceproceedings:ACM-SIGMOD,ACM-PODS,VLDB,ICDE,EDBT,DASFAAJournals:AC