数据挖掘概念与技术 CHAPTER2-数据预处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第2章:数据预处理为什么预处理数据?数据清理数据集成数据归约离散化和概念分层产生小结2为什么数据预处理?现实世界中的数据是脏的不完全:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据例,occupation=“”噪音:包含错误或孤立点例,Salary=“-10”不一致:编码或名字存在差异例,Age=“42”Birthday=“03/07/2010”例,以前的等级“1,2,3”,现在的等级“A,B,C”例,重复记录间的差异3数据为什么脏?不完全数据源于数据收集时未包含数据收集和数据分析时的不同考虑.人/硬件/软件问题噪音数据源于收集录入变换不一致数据源于不同的数据源违反函数依赖4为什么数据预处理是重要的?没有高质量的数据,就没有高质量的数据挖掘结果!高质量的决策必然依赖高质量的数据例如,重复或遗漏的数据可能导致不正确或误导的统计.数据仓库需要高质量数据的一致集成5数据质量:一个多维视角一种广泛接受的多角度:正确性(Accuracy)完全性(Completeness)一致性(Consistency)合时(Timeliness):timelyupdate?可信性(Believability)可解释性(Interpretability)可存取性(Accessibility)6数据预处理的主要任务数据清理填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不一致数据集成多个数据库,数据立方体,或文件的集成数据变换规范化和聚集数据归约得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩数据离散化和概念分层7数据预处理的形式8第2章:数据预处理为什么预处理数据?数据清理数据集成数据归约离散化和概念分层产生小结9数据清理DataCleaning现实世界de数据是脏:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误incomplete:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据e.g.,职业=“”(missingdata)noisy:包含错误或孤立点e.g.,Salary=“−10”(anerror)inconsistent:编码或名字存在差异,e.g.,Age=“42”,Birthday=“03/07/2010”以前的等级“1,2,3”,现在等级“A,B,C”重复记录间的差异有意的(e.g.,变相丢失的数据)Jan.1aseveryone’sbirthday?10如何处理缺失数据?忽略元组:缺少类别标签时常用(假定涉及分类—不是很有效,当每个属性的缺失百分比变化大时手工填写缺失数据:乏味+费时+不可行?自动填充一个全局常量:e.g.,“unknown”,anewclass?!使用属性均值与目标元组同一类的所有样本的属性均值:更巧妙最可能的值:基于推理的方法,如贝叶斯公式或决策树11噪音数据NoisyDataNoise:被测量的变量的随机误差或方差不正确的属性值可能由于错误的数据收集工具数据录入问题dataentryproblems数据传输问题datatransmissionproblems技术限制technologylimitation不一致的命名惯例inconsistencyinnamingconvention其他需要数据清理的问题重复记录duplicaterecords数据不完整incompletedata不一致的数据inconsistentdata12如何处理噪音数据?分箱Binningmethod:排序数据,分布到等频/等宽的箱/桶中箱均值光滑、箱中位数光滑、箱边界光滑,etc.聚类Clustering检测和去除离群点/孤立点outliers计算机和人工检查相结合人工检查可疑值(e.g.,dealwithpossibleoutliers)回归Regression回归函数拟合数据13分箱:简单的离散化方法等宽度Equal-width(distance)剖分:分成大小相等的n个区间:均匀网格uniformgrid若A和B是属性的最低和最高取值,区间宽度为:W=(B–A)/N.孤立点可能占据重要影响maydominatepresentation倾斜的数据处理不好.等频剖分(frequency)/等深equi-depth:分成n个区间,每一个含近似相同数目的样本Gooddatascaling类别属性可能会非常棘手.14BinningMethodsforDataSmoothing*Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34*Partitioninto(equi-depth)bins:-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34*Smoothingbybinmeans:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29*Smoothingbybinboundaries:-Bin1:4,4,4,15-Bin2:21,21,25,25-Bin3:26,26,26,3415聚类分析16Regressionxyy=x+1X1Y1Y1’17数据清理作为一个过程数据偏差检测Datadiscrepancydetection使用元数据(数据性质的知识)(e.g.,领域,长度范围,从属,分布)检查字段过载fieldoverloading检查唯一性规则,连续性规则,空值规则使用商业工具数据清洗Datascrubbing:使用简单的领域知识(e.g.,邮编,拼写检查)检查并纠正错误数据审计Dataauditing:通过分析数据发现规则和联系发现违规者(孤立点)数据迁移和集成数据迁移工具Datamigrationtools:允许指定转换提取/变换/装入工具ETL(Extraction/Transformation/Loading)tools:允许用户通过图形用户界面指定变换整合两个过程两个过程迭代和交互执行(e.g.,Potter’sWheels)18第2章:数据预处理为什么预处理数据?数据清理数据集成数据归约离散化和概念分层产生小结19数据集成数据集成Dataintegration:合并多个数据源中的数据,存在一个一致的数据存储中涉及3个主要问题:模式集成、冗余数据、冲突数据值模式集成Schemaintegration例如.,A.cust-id?B.cust-#实体识别问题Entityidentificationproblem:多个数据源的真实世界的实体的识别,e.g.,BillClinton=WilliamClinton集成不同来源的元数据冲突数据值的检测和解决对真实世界的实体,其不同来源的属性值可能不同原因:不同的表示,不同尺度,公制vs.英制20数据集成中冗余数据处理冗余数据Redundantdata(集成多个数据库时出现)目标识别:同一个属性在不同的数据库中有不同的名称衍生数据:一个属性值可由其他表的属性推导出,e.g.,年收入相关分析correlationanalysis/协方差分析covarianceanalysis可用于检测冗余数据小心的集成多个来源的数据可以帮助降低和避免结果数据集中的冗余和不一致,提高数据挖掘的速度和质量21相关分析(数值数据)Correlationcoefficient(alsocalledPearson’sproductmomentcoefficient)相关系数(皮尔逊相关系数)n元组个数,和属性A和B上的平均值,σAandσB分别为各自标准差,Σ(aibi)istheAB叉积cross-product之和.IfrA,B0,AandB整相关(A’svaluesincreaseasB’s).值越大相关程度越高.rA,B=0:不相关;rAB0:负相关BAniiiBAniiiBAnBAnbanBbAar)1()()1())((11,AB22相关性的视觉评价Scatterplotsshowingthesimilarityfrom–1to1.23相关(线形关系)相关测量的是对象间的线性关系Tocomputecorrelation,westandardizedataobjects,AandB,andthentaketheirdotproduct)(/))(('AstdAmeanaakk)(/))(('BstdBmeanbbkk''),(BABAncorrelatio24Covarianceissimilartocorrelationn元组个数,和属性A和B上的平均值,σAandσB分别为各自标准差.正covariance:IfCovA,B0,则A和B同时倾向于大于期望值.负covariance:IfCovA,B0,则如果A〉其期望值,Bislikelytobesmallerthanitsexpectedvalue.Independence:CovA,B=0buttheconverseisnottrue:Somepairsofrandomvariablesmayhaveacovarianceof0butarenotindependent.Onlyundersomeadditionalassumptions(e.g.,thedatafollowmultivariatenormaldistributions)doesacovarianceof0implyindependence协方差Covariance(NumericData)ABCorrelationcoefficient:25Co-Variance:AnExampleItcanbesimplifiedincomputationas设两个股票A和B一周内值如下(2,5),(3,8),(5,10),(4,11),(6,14).问:如果股票是由同行业趋势的影响,它们的价格将一起上升或下降?E(A)=(2+3+5+4+6)/5=20/5=4E(B)=(5+8+10+11+14)/5=48/5=9.6Cov(A,B)=(2×5+3×8+5×10+4×11+6×14)/5−4×9.6=4Thus,AandBrisetogethersinceCov(A,B)0.26相关分析(名义数据NominalData)Χ2(chi-square)test开方检验σij是(ai,bj)的观测频度(实际计数)eij是(ai,bj)的期望频度N数据元组的个数属A性a1a2iacb1Bb2jbr(A=ai,B=bj)rjijijijciee1212)(NbBcountaAcountejiij)(*)(Χ2值越大,相关的可能越大对Χ2值贡献最大的项,其实际值与期望值相差最大的相相关不意味着因果关系27Chi-Square卡方值计算:例子Χ2(chi-square)计算(括号中的值为期望计值,由两个类别的分布数据计算得到)结果表明like_fiction和play_chess关联93.507840)8401000(360)360200(210)21050(90)90250(22222PlaychessNotplaychessSum(row)看小说250(90)200(360)450不看小说50(210)1000(840)1050Sum(col.)30012001500901500300*450)(*)(11Ncountcounte下棋看小说28数据变换DataTransformation光滑:去掉噪音,技术:分箱、回归、聚类聚集Aggregati

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功