数据挖掘第二章:数据预处理本章内容2.0认识数据2.1为什么要预处理数据2.2数据清理2.3数据集成和变换2.4数据归约基本要求:了解数据质量问题及其对挖掘的影响,掌握数据清理、集成和变换、归约等方法2.0认识数据洞察数据有助于数据预处理与挖掘数据由什么类型的属性或字段组成属性具有何种类型的属性值属性是离散的还是连续的数据分布特性数据可视化2.0认识数据–数据对象与属性类型数据对象:数据集由数据对象组成,一个数据对象代表一个实体顾客、商品、患者又称样本、实例、数据点、元组等属性:表示数据对象的一个特征维、特征、变量一个给定对象的一组属性称作属性向量(特征向量)属性的类型由该属性可能具有的值的集合决定2.0认识数据–数据对象与属性类型枚举类型(nominalattribute):分类类型属性值域是一个由符号、事物构成的有限集合头发颜色、婚姻状态、职业不具备有意义的序、不是定量的可用众数(mode)度量中心趋势二元属性(binaryattribute):布尔属性只有两个类别与状态:0与1,true与false对称的:两个状态分布或重要性相同。性别非对称的:两个状态分布或重要性不是相同的。HIV检验。2.0认识数据–数据对象与属性类型序数类型(ordinalattribute)属性值之间存在有意义的序,相继值之间差是定性的大中小、职位、军衔可通过把数值量的值域划分为有限个有序列性得到序数类型可用众数与中位数表示中心趋势2.0认识数据–数据对象与属性类型数值属性(numericattribute)可用整数或实数度量区间标度(interval-scaled)属性:用相同的单位尺度度量。•可用众数、中位数、均值表示比例标度(ratio-scaled)属性:可用倍数表示。•可用众数、中位数、均值表示2.0认识数据–数据对象与属性类型离散属性:具有有限个或无限可数个值连续属性:如果属性不是离散的,则它是连续的,用实数表示2.0认识数据–数据基本统计描述动机:为了更好的理解数据获得数据的总体印象识别数据的典型特征凸显噪声或离群点度量数据的中心趋势均值、中位数、众数(模)度量数据的离散程度四分位数、四分位数极差、方差等2.0认识数据–数据基本统计描述算术平均值加权算术平均截断均值(trimmedmean):去掉高、低极端值得到的均值e.g.计算平均工资时,可以截掉上下各2%的值后计算均值,以抵消少数极端值的影响中位数:有序集的中间值或者中间两个值平均niixnx11niiniiiwxwx112.0认识数据–数据基本统计描述众数(Mode,模):集合中出现频率最高的值单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal);多峰的(multimodal)对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数)(3medianmeanmodemean2.0认识数据–数据基本统计描述对称与正倾斜、负倾斜数据的中位数、均值和众数2.0认识数据–数据基本统计描述评估数值数据散布或发散的度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差极差(range):数据集的最大值和最小值之差百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x•中位数就是第50个百分位数四分位数:Q1(25thpercentile),Q3(75thpercentile)中间四分位数极差(IQR):IQR=Q3–Q1孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值2.0认识数据–数据基本统计描述2.0认识数据–数据基本统计描述2.0认识数据–数据基本统计描述例子60thPercentileI=(60/100)*51=30.630.6不是整数,选择整数31,故数值为66.133thPercentileI=(33/100)*51=16.8316.83不是整数,选择整数17,故数值为63.6Q1:13th—62.9;Q3:38th—67.2Q3-Q1=4.3(62.9-1.5*4.3,67.2+1.5*4.3)=(56.45,73.65)TheOUTLIERis52.7LowerFence=Q1-1.5(IQR)UpperFence=Q3+1.5(IQR)2.0认识数据–数据基本统计描述五数概括:min,Q1,Median,Q3,max盒图:数据分布的一种直观表示方差和标准差方差s2:n个观测之x1,x2...xn的方差是标准差s是方差s2的平方根标准差s是关于平均值的离散的度量,因此仅当选平均值做中心度量时使用所有观测值相同则s=0,否则s0方差和标准差都是代数度量niniiiniixnxnxxns1122122])(1[11)(112.0认识数据–数据基本统计描述例子:5个数据30.8,31.7,30.1,31.6,32.1平均值:31.268019.0643.0643.04572.2426.311.3226.316.3126.311.3026.317.3126.318.30152222225122ssxxsii2.0认识数据–数据基本统计描述68.26%的数据分布在[µ±s]=[31.6±0.8]=[30.8,32.4]95.44%的数据分布在[µ±2s]=[31.6±1.6]=[30.0,33.2]99.73%的数据分布在[µ±3s]=[31.6±2.4]=[29.2,34.0]至少(1-1/k2)的数据分布在[µ-ks,µ+ks]2.0认识数据–数据基本统计描述盒图:数据分布的一种直观表示:端点在四分位数上,使得盒图的长度是IQR中位数M用盒内的线标记胡须延伸到最大最小观测值该盒图为在给定时间段在AllElectronics的4个分店销售的商品单价的盒图分店1:中位数$80,Q1:$60,Q3:$1002.0认识数据–数据基本统计描述2.0认识数据–数据基本统计描述常用的显示数据汇总和分布的方法直方图、分位数图、q-q图、散布图和局部回归曲线直方图:一种单变量图形表示方法将数据分布划分成不相交的子集或桶,通常每个桶宽度一致并用一个矩形表示,其高度表示桶中数据在给定数据中出现的计数或频率05101520253035401000020000300004000050000600007000080000900001000002.0认识数据–数据基本统计描述直方图能够比盒图展现更多的信息这两个直方图具有相同的min,Q1,median,Q3,max但是它们具有不同数据分布2.0认识数据–数据基本统计描述分位数图:一种利用分位数信息观察单变量数据分布的简单有效方法显示所有的数据,允许用户评估总的情况和不寻常情况的出现设xi是递增排序的数据,则每个xi都有相对应的fi,指出大约有100fi%的数据小于等于xi2.0认识数据–数据基本统计描述分位数-分位数图(Q-Q图):对着另一个单变量的分位数,绘制一个单变量分布的分位数允许用户观察是不是有从一个分布到另外一个分布的迁移ExampleshowsunitpriceofitemssoldatBranch1vs.Branch2foreachquantile.UnitpricesofitemssoldatBranch1tendtobelowerthanthoseatBranch2.2.0认识数据–数据基本统计描述散布图:确定两个量化的变量之间看上去是否有联系、模式或者趋势的最有效的图形方法之一散布图中的每个值都被视作代数坐标对,作为一个点画在平面上易于观察双变量数据在平面上的分布2.0认识数据–数据基本统计描述loess曲线为散布图添加一条平滑的曲线,以便更好的观察两个变量间的依赖模式Loess(localregression)意指“局部回归”,为了拟合loess曲线,需要两个参数:平滑参数α,被回归拟合的多项式的阶λ2.0认识数据–数据基本统计描述左半部分是正相关右半部分是负相关2.0认识数据–数据基本统计描述不相关数据本章内容2.0认识数据2.1为什么要预处理数据2.2数据清理2.3数据集成和变换2.4数据归约现实世界的数据是“脏的”不完整(incomplete)•缺少数据值;缺乏某些重要属性;仅包含汇总数据有噪声(noisy)•包含错误或者孤立点(outliers)数据不一致(inconsistent)•e.g.,在编码或者命名上存在差异•e.g.,Age=“42”Birthday=“03/07/1997”2.1为什么要预处理数据GIGO(Garbagein,garbageout)原理:Noqualitydata,noqualityminingresults!广为认可的数据质量多维度量精确度完整度一致性时效性2.1为什么要预处理数据可信度可增值性可解释性可访问性2.1为什么要预处理数据数据处理的主要任务数据清理•填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成•集成多个数据库、数据立方体或文件数据变换•规范化和聚集数据归约•得到数据集的压缩表示,但可得到相同或相近的结果数据离散化•通过概念分层和数据离散化来规约数据,对数值型数据特别重要本章内容2.0认识数据2.1为什么要预处理数据2.2数据清理2.3数据集成和变换2.4数据归约2.2数据清洗业界对数据清理的认识“数据清理是数据仓库构建中最重要的问题”—DCIsurvey数据清理任务填写空缺值识别离群点和平滑噪声数据纠正不一致的数据解决数据集成造成的冗余2.2数据清洗空缺值数据并不总是完整的•例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入引起空缺值的原因•设备异常•与其他已有数据不一致而被删除•因为误解而没有被输入的数据•在输入时,有些数据应为得不到重视而没有被输入空缺值要经过推断而补上2.2数据清洗如何处理空缺值忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法2.2数据清洗噪声数据噪声:一个测量变量中的随机错误或偏差引起噪声的原因•数据收集工具的问题•数据输入错误•数据传输错误•技术限制•命名规则的不一致2.2数据清洗噪声数据处理分箱(binning):•首先排序数据,并将他们分到等深的箱中•可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑回归:通过让数据适应回归函数来平滑数据聚类:检测并且去除孤立点计算机和人工检查结合:计算机检测可疑数据,然后对它们进行人工判断分箱方法price的排序后数据:4,8,15,21,21,24,25,28,34划分为(等深的)箱:•箱1:4,8,15•箱2:21,21,24•箱3:25,28,34用箱平均值平滑:•箱1:9,9,9•箱2:22,22,22•箱3:29,29,29用箱边界平滑:•箱1:4,4,15•箱2:21,21,24•箱3:25,25,342.2数据清洗回归xyy=x+1X1Y1Y1’2.2数据清洗通过聚类分析检测离群点,消除噪声:聚类将类似的值聚成簇。直观的,落在簇集合之外的值被视为离群点聚类2.2数据清洗本章内容2.0认识数据2.1为什么要预处理数据2.2数据清理2.3数据集成和变换2.4数据归约2.3数据集成和变换数据集成:将多个