数据挖掘课件_第一课

ch0906
2 ℃
2019-12-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据仓库与数据挖掘信息学院李翠平2019年12月25日星期三2CourseOutline1.Introduction2.FrequentPatterns3.Classification4.ClusterAnalysis5.OurlierDetection6.DataWarehouseandOLAPTechnologyforDataMining7.Advancedtopicindatamining1.Streamdatamining2.Time-seriesandsequentialpatternmining3.Graphandstructuredpatternmining4.Spatiotemporalandmultimediadatamining5.Multi-relationalandcross-databasedatamining6.Socialnetworkanalysis7.TextandWebmining8.Otherinterestingdataminingtopics8.DataMiningApplications&Examples(分组报告)2019年12月25日星期三3课程要求、成绩评估、参考书课程要求：按时上课和完成作业，积极参与课堂讨论，评估成绩：平时（50％)：考勤+课堂报告期末（50％)：参考书：JiaweiHan:DataMining:ConceptandTechniques（数据库视角看数据挖掘）DavidJ.Hand等，PrinciplesofDataMining（统计视角看数据挖掘）王珊，李翠平等，数据仓库与数据分析原理2019年12月25日星期三4IntroductionMotivation:Whydatamining?Whatisdatamining?DataMining:Onwhatkindofdata?DataminingfunctionalityAreallthepatternsinteresting?DataMiningFrameworkIntegrationofDataMiningandDataWarehousingMajordataminingconference2019年12月25日星期三5NecessityIstheMotherofInventionDataexplosionproblemAutomateddatacollectiontoolsandmaturedatabasetechnologyleadtotremendousamountsofdataaccumulatedand/ortobeanalyzedindatabases,datawarehouses,andotherinformationrepositoriesWearedrowningindata,butstarvingforknowledge!Solution:DatawarehousinganddataminingDatawarehousingandon-lineanalyticalprocessingMininginterestingknowledge(rules,regularities,patterns,constraints)fromdatainlargedatabases2019年12月25日星期三7WhatIsDataMining?Datamining(knowledgediscoveryfromdata)Extractionofinteresting(non-trivial,implicit,previouslyunknownandpotentiallyuseful)patternsorknowledgefromhugeamountofdataDatamining:amisnomer?AlternativenamesKnowledgediscovery(mining)indatabases(KDD),knowledgeextraction,data/patternanalysis,dataarcheology,datadredging,informationharvesting,businessintelligence,etc.Watchout:Iseverything“datamining”?(Deductive)queryprocessing.ExpertsystemsorsmallML/statisticalprograms2019年12月25日星期三8数据挖掘与KDD也可以把数据挖掘作为KDD的一个步骤。KDD是一个以知识使用者为中心，人机交互的探索过程，包括了在指定的数据库中用数据挖掘算法提取模型，以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤。尽管数据挖掘是整个过程的中心，但它通常只占KDD过程15%~25%的工作量。数据源数据集成数据预处理数据挖掘评估表示模式知识图7.1将数据挖掘看作KDD的一个步骤目标数据洁净数据2019年12月25日星期三9DataMining:OnWhatKindsofData?RelationaldatabaseDatawarehouseTransactionaldatabaseAdvanceddatabaseandadvancedapplicationsObject-relationaldatabasesTemporaldatabasesandtime-seriesdatabasesSpatialdatabasesandspatiotemporaldatabasesTextdatabasesandmultimediadatabaseHeterogeneousdatabasesandlegacydatabasesDatastreamsTheWorld-WideWeb2019年12月25日星期三10数据挖掘的特点（1）第一，数据挖掘的数据源必须是真实的。数据挖掘所处理的数据通常是已经存在的真实数据（如超市业务数据），而不是为了进行数据分析而专门收集的数据。因此，数据收集本身不属于数据挖掘所关注的焦点，这是数据挖掘区别于大多数统计任务的特征之一。2019年12月25日星期三11数据挖掘的特点（2）第二，数据挖掘所处理的数据必须是海量的。如果数据集很小的话，采用单纯的统计分析方法就可以了。但是，当数据集很大时，会面临许多新的问题，诸如，数据的有效存储、快速访问、合理表示等。2019年12月25日星期三12数据挖掘的特点（3）第三，查询一般是决策制定者（用户）提出的随机查询。查询要求灵活，往往不能形成精确的查询要求，要靠数据挖掘技术来寻找可能的查询结果。2019年12月25日星期三13数据挖掘的特点（4）第四，挖掘出来的知识一般是不能预知的，数据挖掘发现的是潜在的、新颖的知识。这些知识在特定环境下是可以接受、可以理解、可以运用的，但不是放之四海皆准的。2019年12月25日星期三14DataMiningFunctionalitiesConceptdescription:CharacterizationanddiscriminationGeneralize,summarize,andcontrastdatacharacteristics,e.g.,dryvs.wetregionsAssociation(correlationandcausality)DiaperBeer[0.5%,75%](Correlationorcausality?)ClassificationandPredictionConstructmodels(functions)thatdescribeanddistinguishclassesorconceptsforfuturepredictionE.g.,classifycountriesbasedonclimate,orclassifycarsbasedongasmileagePresentation:decision-tree,classificationrule,neuralnetworkPredictsomeunknownormissingnumericalvalues2019年12月25日星期三15DataMiningFunctionalities(2)ClusteranalysisClasslabelisunknown:Groupdatatoformnewclasses,e.g.,clusterhousestofinddistributionpatternsMaximizingintra-classsimilarity&minimizinginterclasssimilarityOutlieranalysisOutlier:adataobjectthatdoesnotcomplywiththegeneralbehaviorofthedataNoiseorexception?No!usefulinfrauddetection,rareeventsanalysisTrendandevolutionanalysisTrendanddeviation:regressionanalysisSequentialpatternmining,periodicityanalysisSimilarity-basedanalysisOtherpattern-directedorstatisticalanalyses2019年12月25日星期三16AreAllthe“Discovered”PatternsInteresting?Dataminingmaygeneratethousandsofpatterns:NotallofthemareinterestingSuggestedapproach:Human-centered,query-based,focusedminingInterestingnessmeasuresApatternisinterestingifitiseasilyunderstoodbyhumans,validonnewortestdatawithsomedegreeofcertainty,potentiallyuseful,novel,orvalidatessomehypothesisthatauserseekstoconfirmObjectivevs.subjectiveinterestingnessmeasuresObjective:basedonstatisticsandstructuresofpatterns,e.g.,support,confidence,etc.Subjective:basedonuser’sbeliefinthedata,e.g.,unexpectedness,novelty,actionability,etc.2019年12月25日星期三17DataMining:AGeneralizedFrameworkApplicationsTechniquesPrinciplesDatabaseTechnology:Indexing,Compression,DataStructureAI/MachineLearningStatisticsInformationTheoryTheoreticalCS:Approximate,Random,OnlineAlgorithmsMathematicalProgrammingComputationalGeometry…•CustomerRelationshipManagement(CRM)•WebpagesSearchesandAnalysis•NetworkSecurity•GeographicalDataAnalysis•GenomicDatabase…•Associatio