2021年3月3日星期三数据仓库与数据挖掘技术1数据仓库和数据挖掘技术什么是数据挖掘?几种主要数据挖掘模型和算法复杂类型数据的挖掘2021年3月3日星期三数据仓库与数据挖掘技术2数据挖掘都干了些什么?英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品……通过数据挖掘的方法使直邮的回应率提高了100%GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本……通过数据挖掘的方法使库存成本比原来减少了3.8%2021年3月3日星期三数据仓库与数据挖掘技术3•美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象……•发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本•汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。•营销费用减少了30%数据挖掘都干了些什么?2021年3月3日星期三数据仓库与数据挖掘技术4什么是数据挖掘?•通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。•数据挖掘能够帮助你选择正确,瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。•数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构•数据挖掘大部分的价值在于利用数据挖掘技术改善预言模型2021年3月3日星期三数据仓库与数据挖掘技术5数据挖掘应用领域•电信:流失•银行:聚类(细分),交叉销售•百货公司/超市:购物篮分析(关联规则)•保险:细分,交叉销售,流失(原因分析)•信用卡:欺诈探测,细分•电子商务:网站日志分析•税务部门:偷漏税行为探测•警察机关:犯罪行为分析•医学:医疗保健2021年3月3日星期三数据仓库与数据挖掘技术6(BigBank&CreditCardCompany)目的:发现新客户数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的毛利$125$125$0总毛利$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000数据挖掘效益分析(直邮)2021年3月3日星期三数据仓库与数据挖掘技术7DataMining:AKDDProcessDatamining:thecoreofknowledgediscoveryprocess.DataCleaningDataIntegrationDatabasesDataWarehouseTask-relevantDataSelectionDataMiningPatternEvaluation2021年3月3日星期三数据仓库与数据挖掘技术8DataMining:ConfluenceofMultipleDisciplinesDataMiningDatabaseTechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)Visualization2021年3月3日星期三数据仓库与数据挖掘技术9数据仓库和数据挖掘技术什么是数据仓库(Whatisadatawarehouse)?多维数据模型(Amulti-dimensionaldatamodel)数据仓库体系结构(Datawarehousearchitecture)什么是数据挖掘(WhatisaDataMining)?几种主要数据挖掘模型和算法复杂类型数据的挖掘2021年3月3日星期三数据仓库与数据挖掘技术10DataMiningFunctionalities(1)Conceptdescription:CharacterizationanddiscriminationGeneralize,summarize,andcontrastdatacharacteristics,e.g.,dryvs.wetregionsAssociation(correlationandcausality)Multi-dimensionalvs.single-dimensionalassociationage(X,“20..29”)^income(X,“20..29K”)buys(X,“PC”)[support=2%,confidence=60%]contains(T,“computer”)contains(x,“software”)[1%,75%]2021年3月3日星期三数据仓库与数据挖掘技术11DataMiningFunctionalities(2)ClassificationandPredictionFindingmodels(functions)thatdescribeanddistinguishclassesorconceptsforfuturepredictionPresentation:decision-tree,classificationrule,neuralnetworkPrediction:PredictsomeunknownormissingnumericalvaluesClusteranalysisClasslabelisunknown:Groupdatatoformnewclasses,e.g.,clusterhousestofinddistributionpatternsClusteringbasedontheprinciple:maximizingtheintra-classsimilarityandminimizingtheinterclasssimilarity2021年3月3日星期三数据仓库与数据挖掘技术12DataMiningFunctionalities(3)OutlieranalysisOutlier:adataobjectthatdoesnotcomplywiththegeneralbehaviorofthedataItcanbeconsideredasnoiseorexceptionbutisquiteusefulinfrauddetection,rareeventsanalysisTrendandevolutionanalysisTrendanddeviation:regressionanalysisSequentialpatternmining,periodicityanalysisSimilarity-basedanalysisOtherpattern-directedorstatisticalanalyses2021年3月3日星期三数据仓库与数据挖掘技术13概念描述(ConceptDescription)产生数据的特征化和比较描述特征化:提供给定数据汇集的简介汇总比较(也称区分):提供两个或多个数据汇集的比较描述2021年3月3日星期三数据仓库与数据挖掘技术14数据概化和基于汇总的特征化数据概化是一个过程,它将大的任务相关的数据集从较低的概念层抽象到较高的概念层.概化方法数据立方体(OLAPapproach)面向属性的归纳方法12345Conceptuallevels2021年3月3日星期三数据仓库与数据挖掘技术15面向属性的归纳KDDWorkshop(89)中提出方法介绍:使用SQL收集相关数据通过数据移除和数据概化来实现概化聚集通过合并相等的广义元组,并累计他们对应的计数值进行和使用者之间交互式的呈现方式.基本方法数据聚焦:选择和当前分析相关的数据,包括维。属性移除:如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。属性阈值控制:typical2-8,specified/default.概化关系阈值控制:控制最终关系的大小特征化的一个例子NameGenderMajorBirth-PlaceBirth_dateResidencePhone#GPAJimWoodmanMCSVancouver,BC,Canada8-12-763511MainSt.,Richmond687-45983.67ScottLachanceMCSMontreal,Que,Canada28-7-753451stAve.,Richmond253-91063.70LauraLee…F…Physics…Seattle,WA,USA…25-8-70…125AustinAve.,Burnaby…420-5232…3.83…RemovedRetainedSci,Eng,BusCountryAgerangeCityRemovedExcl,VG,..GenderMajorBirth_regionAge_rangeResidenceGPACountMScienceCanada20-25RichmondVery-good16FScienceForeign25-30BurnabyExcellent22…………………Birth_RegionGenderCanadaForeignTotalM161430F102232Total263662PrimeGeneralizedRelationInitialRelation挖掘类比较比较:比较两个或者更多类.方法:将相关的数据分成目标类和比较类。将两个类别的数据概化到相同的层次。用相同层次的描述对元组进行比较。对于每个元组展现其描述和两个衡量标准将差异很大的元组特别显示出来相关性分析:发现最能体现类别之间差异的属性.2021年3月3日星期三数据仓库与数据挖掘技术19例子:分析性比较Birth_countryAge_rangeGpaCount%Canada20-25Good5.53%Canada25-30Good2.32%CanadaOver_30Very_good5.86%…………OtherOver_30Excellent4.68%Primegeneralizedrelationforthetargetclass:GraduatestudentsBirth_countryAge_rangeGpaCount%Canada15-20Fair5.53%Canada15-20Good4.53%…………Canada25-30Good5.02%…………OtherOver_30Excellent0.68%Primegeneralizedrelationforthecontrastingclass:Undergraduatestudents2021年3月3日星期三数据仓库与数据挖掘技术20从大型数据库中挖掘关联规则关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。举例:规则形式:“BodyHead[support,confidence]”.buys(x,“diapers”)buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)grade(x,“A”)[1%,75%]2021年3月3日星期三数据仓库与数据挖掘技术21关联规则:基本概念给定:(1)交易数据库(2)每笔交易是:一个项目列表(消费者一次购买活动中购买的商品)查找:所有描述一个项目集合与其他项目集合相关性的规则应用*护理用品(商店应该怎样提高护理用品的销售?)家用电器*(其他商品的库存有什么影响?)在产品直销中使用附加邮寄2021年3月3日星期三数据仓库与数据挖掘技术22TransactionsExampleTIDProduce1MILK,BREAD,EGGS2B