2019年-数据挖掘4章节挖掘原语-语言和体系结构-PPT精选文档

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

挖掘原语,语言和体系结构数据挖掘原语数据挖掘语言数据挖掘系统体系结构总结数据挖掘原语划分•挖掘相关的数据•挖掘的知识类型•背景知识•模式的兴趣度量•结果的表示与可视化任务相关数据数据库(或数据仓库)名称例如:AllElectronics_db数据库表(或数据仓库的立方体)例如:表item,customer,purchase,items_sold数据选择条件例如:选取本年度加拿大地区购买商品的数据选取条件可能在概念上层次高于DB/DW的数据如:”type=homeentertainment”,DB/DW中数据{tv,cdplayer,vcr}有关的属性(或维)例如:item表的name,price属性;customer表的income,age属性。系统应具备自动选取相关属性的机制,比如通过评估各属性与特定操作的相关程度。数据分组的标准例如:根据日期进行分组挖掘的知识类型描述(characterization)区别分析(discrimination)关联(association)分类/预测(classification/prediction)聚类(clustering)例:用户如果想发掘AllElectronics数据库中用户的购买习惯,可能会选择下面关联规则:P(X:customer,W)^Q(X,Y)=buys(X,Z)X是customer表的主键,P,Q是谓词变量(在相关数据中定义),W,Y,Z是目标变量。可能的挖掘结果是:age(X,”30…39”)^income(X,”40k…49k”)=buys(X,”VCR”)[2.2%,60%]accupation(X,”student”)^age(X,”20…29”)=buys(X,”computer”)[1.4%,70%]背景知识:概念层次概念层次模式层次(schemahierarchy)例:Streetcityprovince_or_statecountry集合-分组层次(set-groupinghierarchy)例:{young,middle_aged,senior}all(age){20-39}=young,{40-59}=middle_aged基于操作层次(operation-derivedhierarchy)包括信息解码,复杂数据对象的信息提取,数据聚类,数据分布分析算法等例:emailaddress:login-namedepartmentuniversitycountry基于规则层次(rule-basedhierarchy)例:low_profit_margin(X)=price(X,P1)andcost(X,P2)and(P1-P2)$50用户对数据间关系的预测可以用于评价挖掘模式的兴趣度量模式兴趣度量简洁性(simplicity)如:(关联)规则长度,(决策)决策树规模大小确定性(certainty)如:confidence,P(A|B)=n(AandB)/n(B),classificationreliabilityoraccuracy(alsoknownasrulereliability,rulestrength,rulequality,certaintyfactor,discriminatingweight)等.有用性(utility)如:support(association),s(A=B)=n(AndB)/n(all),noisethreshold(description)新颖程度(novelty)如:notpreviouslyknown,surprising(usedtoremoveredundantrules,e.g.,Canadavs.Vancouverruleimplicationsupportratio结果模式的可视化挖掘系统应能够用多种形式来显示发掘出来的模式如:规则,表,报表,图表,图,决策数和立方体挖掘系统应能够支持挖掘结果的多种操作如:drill-down,roll-up,slicing,dicing,rotation…挖掘原语,语言和体系结构数据挖掘原语数据挖掘语言数据挖掘系统体系结构总结DMQL——一个数据挖掘语言动机为了能提供交互式数据挖掘能力通过提供一个类似SQL的语言希望能像SQL语言一样成为挖掘标准语言希望成为系统开发和演化(evolution)的基础希望促进信息交换,技术转移,商业化并获得广泛承认设计DMQL在前面介绍的挖掘原语基础之上进行设计任务相关数据的语法表示usedatabasedatabase_name,orusedatawarehousedata_warehouse_namefromrelation(s)/cube(s)where[condition]inrelevancetoatt_or_dim_listorderbyorder_listgroupbygrouping_listhavingcondition任务相关数据语法表示(续)例:如果挖掘AllElectronics的加拿大顾客经常购买的商品之间的关联,针对顾客不同收入和年龄,并且数据用购买日期进行分组。挖掘相关数据可以写成:usedatabaseAllElectronics_dbinrelevancetoI.name,I.price,C.income,C.agefromcustomerC,itemI,purchaseP,item_soldSwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDgroupbyP.date挖掘知识类型的语法Mine_Knowledge_Specificaton::=Mine_Char|Mine_Discri|Mine_Assoc|Mine_Class|Mine_PredMine_Char::=Minecharacterization[aspattern_name]analyzemeansure(s)例:minecharacteristicsascustomerPurchasinganalyzecount%Mine_Discri::=Minecomparison[aspattern_name]fortarget_classwheretarget_condition{versuscontrast_class_iwherecontrast_condition_i}analyzemeasure(s)例:minecomparisonaspurchaseGroupsforbigSpenderswhereavg(I.price)≥$100analyzecountversusbudgetSpenderswhereavg(I.price),$100挖掘知识类型的语法(续)Mine_assoc::=mineassociation[aspattern_name][matchingmetapattern]例:mineassociationsasbuyingHabitsmatchingP(X:customer,W)^Q(X,Y)=buys(X,Z)Mine_class::=mineclassification[aspattern_name]analyzeclassifying_attribute_or_dimention例:mineclassificationasclassifyingCustomerCreditRatinganalyzecredit_infoMine_predi::=Mineprediction[aspattern_name]analyzeprediction_attribute_or_dimention{set{attribute_or_dimention_i=value_i}}例:minepredictionaspredictItemPriceanalyzepricesetcategory=“TV”andbrand=“SONY”概念层次语法语法:Usehierarchyhierarchyforattribute_or_dimention不同概念层次采用不同定义方式模式概念层次definehierarchytime_hierarchyondateas[date,monthquarter,year]集合-分组概念层次definehierarchyage_hierarchyforageoncustomeraslevel1:{young,middle_aged,senior}level0:alllevel2:{20,...,39}level1:younglevel2:{40,...,59}level1:middle_agedlevel2:{60,...,89}level1:senior概念层次语法(续)基于操作概念模式(operation-derivedhierarchies)definehierarchyage_hierarchyforageoncustomeras{age_category(1),...,age_category(5)}:=cluster(default,age,5)all(age)基于规则概念模式(rule-basedhierarchies)definehierarchyprofit_margin_hierarchyonitemaslevel_1:low_profit_marginlevel_0:allif(price-cost)$50level_1:medium-profit_marginlevel_0:allif((price-cost)$50)and((price-cost)=$250))level_1:high_profit_marginlevel_0:allif(price-cost)$250兴趣度量语法语法:withinterest_measure_namethreshold=threshold_value例:withsupportthreshold=0.05withconfidencethreshold=0.7挖掘知识表示语法用户指定显示方法displayasresult_form为在不同概念层次上观察结果:Multilevel_Manipulation::=rolluponattribute_or_dimension|drilldownonattribute_or_dimension|addattribute_or_dimension|dropattribute_or_dimension一个完整的DMQL语句usedatabaseAllElectronics_dbusehierarchylocation_hierarchyforB.addressminecharacteristicsascustomerPurchasinganalyzecount%inrelevancetoC.age,I.type,I.place_madefromcustomerC,itemI,purchasesP,items_soldS,works_atW,branchBwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDandP.method_paid=``AmEx''andP.empl_ID=W.empl_IDandW.branch_ID=B.branch_IDandB.address=``CanadaandI.price=100wi

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功