数据挖掘课件_第一课

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据仓库与数据挖掘信息学院李翠平2019年12月25日星期三2CourseOutline1.Introduction2.FrequentPatterns3.Classification4.ClusterAnalysis5.OurlierDetection6.DataWarehouseandOLAPTechnologyforDataMining7.Advancedtopicindatamining1.Streamdatamining2.Time-seriesandsequentialpatternmining3.Graphandstructuredpatternmining4.Spatiotemporalandmultimediadatamining5.Multi-relationalandcross-databasedatamining6.Socialnetworkanalysis7.TextandWebmining8.Otherinterestingdataminingtopics8.DataMiningApplications&Examples(分组报告)2019年12月25日星期三3课程要求、成绩评估、参考书课程要求:按时上课和完成作业,积极参与课堂讨论,评估成绩:平时(50%):考勤+课堂报告期末(50%):参考书:JiaweiHan:DataMining:ConceptandTechniques(数据库视角看数据挖掘)DavidJ.Hand等,PrinciplesofDataMining(统计视角看数据挖掘)王珊,李翠平等,数据仓库与数据分析原理2019年12月25日星期三4IntroductionMotivation:Whydatamining?Whatisdatamining?DataMining:Onwhatkindofdata?DataminingfunctionalityAreallthepatternsinteresting?DataMiningFrameworkIntegrationofDataMiningandDataWarehousingMajordataminingconference2019年12月25日星期三5NecessityIstheMotherofInventionDataexplosionproblemAutomateddatacollectiontoolsandmaturedatabasetechnologyleadtotremendousamountsofdataaccumulatedand/ortobeanalyzedindatabases,datawarehouses,andotherinformationrepositoriesWearedrowningindata,butstarvingforknowledge!Solution:DatawarehousinganddataminingDatawarehousingandon-lineanalyticalprocessingMininginterestingknowledge(rules,regularities,patterns,constraints)fromdatainlargedatabases2019年12月25日星期三7WhatIsDataMining?Datamining(knowledgediscoveryfromdata)Extractionofinteresting(non-trivial,implicit,previouslyunknownandpotentiallyuseful)patternsorknowledgefromhugeamountofdataDatamining:amisnomer?AlternativenamesKnowledgediscovery(mining)indatabases(KDD),knowledgeextraction,data/patternanalysis,dataarcheology,datadredging,informationharvesting,businessintelligence,etc.Watchout:Iseverything“datamining”?(Deductive)queryprocessing.ExpertsystemsorsmallML/statisticalprograms2019年12月25日星期三8数据挖掘与KDD也可以把数据挖掘作为KDD的一个步骤。KDD是一个以知识使用者为中心,人机交互的探索过程,包括了在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤。尽管数据挖掘是整个过程的中心,但它通常只占KDD过程15%~25%的工作量。数据源数据集成数据预处理数据挖掘评估表示模式知识图7.1将数据挖掘看作KDD的一个步骤目标数据洁净数据2019年12月25日星期三9DataMining:OnWhatKindsofData?RelationaldatabaseDatawarehouseTransactionaldatabaseAdvanceddatabaseandadvancedapplicationsObject-relationaldatabasesTemporaldatabasesandtime-seriesdatabasesSpatialdatabasesandspatiotemporaldatabasesTextdatabasesandmultimediadatabaseHeterogeneousdatabasesandlegacydatabasesDatastreamsTheWorld-WideWeb2019年12月25日星期三10数据挖掘的特点(1)第一,数据挖掘的数据源必须是真实的。数据挖掘所处理的数据通常是已经存在的真实数据(如超市业务数据),而不是为了进行数据分析而专门收集的数据。因此,数据收集本身不属于数据挖掘所关注的焦点,这是数据挖掘区别于大多数统计任务的特征之一。2019年12月25日星期三11数据挖掘的特点(2)第二,数据挖掘所处理的数据必须是海量的。如果数据集很小的话,采用单纯的统计分析方法就可以了。但是,当数据集很大时,会面临许多新的问题,诸如,数据的有效存储、快速访问、合理表示等。2019年12月25日星期三12数据挖掘的特点(3)第三,查询一般是决策制定者(用户)提出的随机查询。查询要求灵活,往往不能形成精确的查询要求,要靠数据挖掘技术来寻找可能的查询结果。2019年12月25日星期三13数据挖掘的特点(4)第四,挖掘出来的知识一般是不能预知的,数据挖掘发现的是潜在的、新颖的知识。这些知识在特定环境下是可以接受、可以理解、可以运用的,但不是放之四海皆准的。2019年12月25日星期三14DataMiningFunctionalitiesConceptdescription:CharacterizationanddiscriminationGeneralize,summarize,andcontrastdatacharacteristics,e.g.,dryvs.wetregionsAssociation(correlationandcausality)DiaperBeer[0.5%,75%](Correlationorcausality?)ClassificationandPredictionConstructmodels(functions)thatdescribeanddistinguishclassesorconceptsforfuturepredictionE.g.,classifycountriesbasedonclimate,orclassifycarsbasedongasmileagePresentation:decision-tree,classificationrule,neuralnetworkPredictsomeunknownormissingnumericalvalues2019年12月25日星期三15DataMiningFunctionalities(2)ClusteranalysisClasslabelisunknown:Groupdatatoformnewclasses,e.g.,clusterhousestofinddistributionpatternsMaximizingintra-classsimilarity&minimizinginterclasssimilarityOutlieranalysisOutlier:adataobjectthatdoesnotcomplywiththegeneralbehaviorofthedataNoiseorexception?No!usefulinfrauddetection,rareeventsanalysisTrendandevolutionanalysisTrendanddeviation:regressionanalysisSequentialpatternmining,periodicityanalysisSimilarity-basedanalysisOtherpattern-directedorstatisticalanalyses2019年12月25日星期三16AreAllthe“Discovered”PatternsInteresting?Dataminingmaygeneratethousandsofpatterns:NotallofthemareinterestingSuggestedapproach:Human-centered,query-based,focusedminingInterestingnessmeasuresApatternisinterestingifitiseasilyunderstoodbyhumans,validonnewortestdatawithsomedegreeofcertainty,potentiallyuseful,novel,orvalidatessomehypothesisthatauserseekstoconfirmObjectivevs.subjectiveinterestingnessmeasuresObjective:basedonstatisticsandstructuresofpatterns,e.g.,support,confidence,etc.Subjective:basedonuser’sbeliefinthedata,e.g.,unexpectedness,novelty,actionability,etc.2019年12月25日星期三17DataMining:AGeneralizedFrameworkApplicationsTechniquesPrinciplesDatabaseTechnology:Indexing,Compression,DataStructureAI/MachineLearningStatisticsInformationTheoryTheoreticalCS:Approximate,Random,OnlineAlgorithmsMathematicalProgrammingComputationalGeometry…•CustomerRelationshipManagement(CRM)•WebpagesSearchesandAnalysis•NetworkSecurity•GeographicalDataAnalysis•GenomicDatabase…•Associatio

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功