1数据挖掘技术----概念描述:特征化与比较2什么是概念描述?描述性vs.预测性数据挖掘描述性数据挖掘预测性数据挖掘概念描述:特征化:对所选择的数据汇集给出一个简单明了的描述。比较:提供对于两个或以上数据汇集进行比较的结果。3概念描述在进行概念描述之前,需要对庞大的任务相关的数据集进行预处理吗?4数据概化和基于汇总的特征化数据概化将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。方法:数据立方体(或OLAP方法)面向属性的归纳5OLAP方法在数据立方体上进行计算和存储结果优点效率高能够计算多种汇总如:count,average,sum,min,max还可以使用roll-down和roll-up操作限制只能处理非数值化数据和数值数据的简单汇总。只能分析,不能自动的选择哪些字段和相应的概念层次。6面向属性的归纳不限制于种类字段和特定的汇总方法方法介绍:使用SQL收集相关数据;通过属性删除和属性概化来实现概化;聚集通过合并相等的广义元组,并累计他们对应的计数值进行;和使用者之间交互式的呈现方式。7基本方法数据聚焦:选择和当前分析相关的数据,包括维。属性删除:如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。属性阈值控制:typical2-8,specified/default.概化关系阈值控制:控制最终关系的大小。8示例DMQL:useBig_University_DBminecharacteristicsas“Science_Students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin“graduate”相应的SQL:Selectname,gender,major,birth_place,birth_date,residence,phone#,gpafromstudentwherestatusin{“Msc”,“MBA”,“PhD”}9类特征化:示例NameGenderMajorBirth-PlaceBirth_dateResidencePhone#GPAJimWoodmanMCSVancouver,BC,Canada8-12-763511MainSt.,Richmond687-45983.67ScottLachanceMCSMontreal,Que,Canada28-7-753451stAve.,Richmond253-91063.70LauraLee…F…Physics…Seattle,WA,USA…25-8-70…125AustinAve.,Burnaby…420-5232…3.83…RemovedRetainedSci,Eng,BusCountryAgerangeCityRemovedExcl,VG,..GenderMajorBirth_regionAge_rangeResidenceGPACountMScienceCanada20-25RichmondVery-good16FScienceForeign25-30BurnabyExcellent22…………………Birth_RegionGenderCanadaForeignTotalM161430F102232Total263662PrimeGeneralizedRelationInitialRelation10概化结果的表示概化关系:一个表格,其中有属性字段,后附汇总方法。交叉表:二维交叉表可视化方法:Piecharts,barcharts,curves,cubes,andothervisualforms.量化特征规则:是目标类的必要条件,但不是充分条件!.%]47:[)(_%]53:[)(_)()(tforeignxregionbirthtCanadaxregionbirthxmalexgrad11表达方式-概化关系12表达方式—交叉表13Q:DM系统如何使用t-权和兴趣度独立,仅显示客观评估是有趣的概念描述?A:可以设定阈值!14解析特征化:属性相关性分析why?哪些维需要包括?减少属性;从而容易理解模型结果What?使用统计的方法进行数据预处理过滤掉一些不相关或者相关性比较弱的字段(属性/维的相关性要根据属性/维区分一个类与其他类的能力来评估)保留并对相关属性进行排序分析特征化,分析比较15属性相关性分析步骤?数据收集使用保守的AOI进行预相关分析使用选定的相关分析度量删除不相关和弱相关属性使用AOI产生概念描述16相关性度量标准相关性度量标准决定了如何对属性进行判断的标准度量包括信息增益、Gini索引、不确定性和相关系数17熵和信息增益信息增益分析技术删除信息量较少的属性,收集信息量交多的属性,用于概念描述分析。集合S中类别Ci的记录个数是si个,i={1,…,m}期望信息属性A的熵是信息增益具有最高信息增益的属性是给定集合中具有最高区分度的属性。sslogss),...,s,ssI(imiim2121)s,...,s(Iss...sE(A)mjjvjmjj111E(A))s,...,s,I(sGain(A)m2118一个例子任务使用分析特征化来了解研究生的一般特征属性名称gender,major,birth_place,birth_date,phone#,gpaGen(ai)=concepthierarchiesonaiUi=attributeanalyticalthresholdsforaiTi=attributegeneralizationthresholdsforaiR=attributerelevancethreshold19例子:分析特征化(续)1.数据收集targetclass:graduatestudentcontrastingclass:undergraduatestudent2.使用Ui分析概化属性移除removenameandphone#属性概化generalizemajor,birth_place,birth_dateandgpaaccumulatecounts候选关系:gender,major,birth_country,age_rangeandgpa20例子:分析特征化(2)gendermajorbirth_countryage_rangegpacountMScienceCanada20-25Very_good16FScienceForeign25-30Excellent22MEngineeringForeign25-30Excellent18FScienceForeign25-30Excellent25MScienceCanada20-25Excellent21FEngineeringCanada20-25Excellent18CandidaterelationforTargetclass:Graduatestudents(=120)gendermajorbirth_countryage_rangegpacountMScienceForeign20Very_good18FBusinessCanada20Fair20MBusinessCanada20Fair22FScienceCanada20-25Fair24MEngineeringForeign20-25Very_good22FEngineeringCanada20Excellent24CandidaterelationforContrastingclass:Undergraduatestudents(=130)21例子:分析特征化(3)3.相关性分析计算期望信息计算每个属性的熵998802501302501302501202501201301202221.loglog),I()s,I(sFormajor=”Science”:S11=84S21=42I(s11,s21)=0.9183Formajor=”Engineering”:S12=36S22=46I(s12,s22)=0.9892Formajor=”Business”:S13=0S23=42I(s13,s23)=0Numberofgradstudentsin“Science”Numberofundergradstudentsin“Science”22例子:分析特征化(4)得出每个属性的熵计算每个属性的InformationGainInformationgainforallattributes787302504225082250126231322122111.)s,s(I)s,s(I)s,s(IE(major)2115021.E(major))s,I(s)Gain(majorGain(gender)=0.0003Gain(birth_country)=0.0407Gain(major)=0.2115Gain(gpa)=0.4490Gain(age_range)=0.597123例子:分析特征化(5)4.Initialworkingrelation(W0)derivationR=0.1移除不相关或者弱相关的属性=dropgender,birth_country移除比较类的关系5.在W0进行AOI分析majorage_rangegpacountScience20-25Very_good16Science25-30Excellent47Science20-25Excellent21Engineering20-25Excellent18Engineering25-30Excellent18InitialtargetclassworkingrelationW0:Graduatestudents24挖掘类比较:区分不同的类比较:比较两个或者更多类.方法:数据收集:将数据汇集分成目标类和比较类。维相关分析:发现最能体现类别之间差异的属性.同步概化:将两个类别的数据概化到相同的层次。导出比较的表示:用表、图或规则的形式可视化。25例子:分析性比较(1)Task使用区别规则来分析本科生和研究生DMQLqueryuseBig_University_DBminecomparisonas“grad_vs_undergrad_students”inrelevancetoname,gender,major,birth_place,birth_date,residence,phone#,gpafor“graduate_students”wherestatusin“graduate”versus“undergraduate_students”wherestatusin“undergraduate”analyzecount%fromstudent26例子:分析性比较(2)1.数据收集目标类和比较类2.属性相关性分析removeattributesname,gender,major,phone#3.同步概化controlledbyuser-specifieddimensionthresholdsprimetargetandcontrastingclass(es)relations/cuboids27例子:分析性比较(3)Birth_countryAge_rangeGpaCount%Canada20-25Good5.53%Canada25-30Good2.32%CanadaOver_30Very_good5.86%…………OtherOver_30Excellent4.68%Pr