第二章数据预处理2

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘第二章:数据预处理本章内容2.0认识数据2.1为什么要预处理数据2.2数据清理2.3数据集成和变换2.4数据归约基本要求:了解数据质量问题及其对挖掘的影响,掌握数据清理、集成和变换、归约等方法2.0认识数据洞察数据有助于数据预处理与挖掘数据由什么类型的属性或字段组成属性具有何种类型的属性值属性是离散的还是连续的数据分布特性数据可视化2.0认识数据–数据对象与属性类型数据对象:数据集由数据对象组成,一个数据对象代表一个实体顾客、商品、患者又称样本、实例、数据点、元组等属性:表示数据对象的一个特征维、特征、变量一个给定对象的一组属性称作属性向量(特征向量)属性的类型由该属性可能具有的值的集合决定2.0认识数据–数据对象与属性类型枚举类型(nominalattribute):分类类型属性值域是一个由符号、事物构成的有限集合头发颜色、婚姻状态、职业不具备有意义的序、不是定量的可用众数(mode)度量中心趋势二元属性(binaryattribute):布尔属性只有两个类别与状态:0与1,true与false对称的:两个状态分布或重要性相同。性别非对称的:两个状态分布或重要性不是相同的。HIV检验。2.0认识数据–数据对象与属性类型序数类型(ordinalattribute)属性值之间存在有意义的序,相继值之间差是定性的大中小、职位、军衔可通过把数值量的值域划分为有限个有序列性得到序数类型可用众数与中位数表示中心趋势2.0认识数据–数据对象与属性类型数值属性(numericattribute)可用整数或实数度量区间标度(interval-scaled)属性:用相同的单位尺度度量。•可用众数、中位数、均值表示比例标度(ratio-scaled)属性:可用倍数表示。•可用众数、中位数、均值表示2.0认识数据–数据对象与属性类型离散属性:具有有限个或无限可数个值连续属性:如果属性不是离散的,则它是连续的,用实数表示2.0认识数据–数据基本统计描述动机:为了更好的理解数据获得数据的总体印象识别数据的典型特征凸显噪声或离群点度量数据的中心趋势均值、中位数、众数(模)度量数据的离散程度四分位数、四分位数极差、方差等2.0认识数据–数据基本统计描述算术平均值加权算术平均截断均值(trimmedmean):去掉高、低极端值得到的均值e.g.计算平均工资时,可以截掉上下各2%的值后计算均值,以抵消少数极端值的影响中位数:有序集的中间值或者中间两个值平均niixnx11niiniiiwxwx112.0认识数据–数据基本统计描述众数(Mode,模):集合中出现频率最高的值单峰的(unimodal,也叫单模态)、双峰的(bimodal)、三峰的(trimodal);多峰的(multimodal)对于适度倾斜(非对称的)的单峰频率曲线,可以使用以下经验公式计算众数)(3medianmeanmodemean2.0认识数据–数据基本统计描述对称与正倾斜、负倾斜数据的中位数、均值和众数2.0认识数据–数据基本统计描述评估数值数据散布或发散的度量:极差、五数概括(基于四分位数)、中间四分位数极差和标准差极差(range):数据集的最大值和最小值之差百分位数(percentile):第k个百分位数是具有如下性质的值x:k%的数据项位于或低于x•中位数就是第50个百分位数四分位数:Q1(25thpercentile),Q3(75thpercentile)中间四分位数极差(IQR):IQR=Q3–Q1孤立点:通常我们认为:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值2.0认识数据–数据基本统计描述2.0认识数据–数据基本统计描述2.0认识数据–数据基本统计描述例子60thPercentileI=(60/100)*51=30.630.6不是整数,选择整数31,故数值为66.133thPercentileI=(33/100)*51=16.8316.83不是整数,选择整数17,故数值为63.6Q1:13th—62.9;Q3:38th—67.2Q3-Q1=4.3(62.9-1.5*4.3,67.2+1.5*4.3)=(56.45,73.65)TheOUTLIERis52.7LowerFence=Q1-1.5(IQR)UpperFence=Q3+1.5(IQR)2.0认识数据–数据基本统计描述五数概括:min,Q1,Median,Q3,max盒图:数据分布的一种直观表示方差和标准差方差s2:n个观测之x1,x2...xn的方差是标准差s是方差s2的平方根标准差s是关于平均值的离散的度量,因此仅当选平均值做中心度量时使用所有观测值相同则s=0,否则s0方差和标准差都是代数度量niniiiniixnxnxxns1122122])(1[11)(112.0认识数据–数据基本统计描述例子:5个数据30.8,31.7,30.1,31.6,32.1平均值:31.268019.0643.0643.04572.2426.311.3226.316.3126.311.3026.317.3126.318.30152222225122ssxxsii2.0认识数据–数据基本统计描述68.26%的数据分布在[µ±s]=[31.6±0.8]=[30.8,32.4]95.44%的数据分布在[µ±2s]=[31.6±1.6]=[30.0,33.2]99.73%的数据分布在[µ±3s]=[31.6±2.4]=[29.2,34.0]至少(1-1/k2)的数据分布在[µ-ks,µ+ks]2.0认识数据–数据基本统计描述盒图:数据分布的一种直观表示:端点在四分位数上,使得盒图的长度是IQR中位数M用盒内的线标记胡须延伸到最大最小观测值该盒图为在给定时间段在AllElectronics的4个分店销售的商品单价的盒图分店1:中位数$80,Q1:$60,Q3:$1002.0认识数据–数据基本统计描述2.0认识数据–数据基本统计描述常用的显示数据汇总和分布的方法直方图、分位数图、q-q图、散布图和局部回归曲线直方图:一种单变量图形表示方法将数据分布划分成不相交的子集或桶,通常每个桶宽度一致并用一个矩形表示,其高度表示桶中数据在给定数据中出现的计数或频率05101520253035401000020000300004000050000600007000080000900001000002.0认识数据–数据基本统计描述直方图能够比盒图展现更多的信息这两个直方图具有相同的min,Q1,median,Q3,max但是它们具有不同数据分布2.0认识数据–数据基本统计描述分位数图:一种利用分位数信息观察单变量数据分布的简单有效方法显示所有的数据,允许用户评估总的情况和不寻常情况的出现设xi是递增排序的数据,则每个xi都有相对应的fi,指出大约有100fi%的数据小于等于xi2.0认识数据–数据基本统计描述分位数-分位数图(Q-Q图):对着另一个单变量的分位数,绘制一个单变量分布的分位数允许用户观察是不是有从一个分布到另外一个分布的迁移ExampleshowsunitpriceofitemssoldatBranch1vs.Branch2foreachquantile.UnitpricesofitemssoldatBranch1tendtobelowerthanthoseatBranch2.2.0认识数据–数据基本统计描述散布图:确定两个量化的变量之间看上去是否有联系、模式或者趋势的最有效的图形方法之一散布图中的每个值都被视作代数坐标对,作为一个点画在平面上易于观察双变量数据在平面上的分布2.0认识数据–数据基本统计描述loess曲线为散布图添加一条平滑的曲线,以便更好的观察两个变量间的依赖模式Loess(localregression)意指“局部回归”,为了拟合loess曲线,需要两个参数:平滑参数α,被回归拟合的多项式的阶λ2.0认识数据–数据基本统计描述左半部分是正相关右半部分是负相关2.0认识数据–数据基本统计描述不相关数据本章内容2.0认识数据2.1为什么要预处理数据2.2数据清理2.3数据集成和变换2.4数据归约现实世界的数据是“脏的”不完整(incomplete)•缺少数据值;缺乏某些重要属性;仅包含汇总数据有噪声(noisy)•包含错误或者孤立点(outliers)数据不一致(inconsistent)•e.g.,在编码或者命名上存在差异•e.g.,Age=“42”Birthday=“03/07/1997”2.1为什么要预处理数据GIGO(Garbagein,garbageout)原理:Noqualitydata,noqualityminingresults!广为认可的数据质量多维度量精确度完整度一致性时效性2.1为什么要预处理数据可信度可增值性可解释性可访问性2.1为什么要预处理数据数据处理的主要任务数据清理•填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成•集成多个数据库、数据立方体或文件数据变换•规范化和聚集数据归约•得到数据集的压缩表示,但可得到相同或相近的结果数据离散化•通过概念分层和数据离散化来规约数据,对数值型数据特别重要本章内容2.0认识数据2.1为什么要预处理数据2.2数据清理2.3数据集成和变换2.4数据归约2.2数据清洗业界对数据清理的认识“数据清理是数据仓库构建中最重要的问题”—DCIsurvey数据清理任务填写空缺值识别离群点和平滑噪声数据纠正不一致的数据解决数据集成造成的冗余2.2数据清洗空缺值数据并不总是完整的•例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入引起空缺值的原因•设备异常•与其他已有数据不一致而被删除•因为误解而没有被输入的数据•在输入时,有些数据应为得不到重视而没有被输入空缺值要经过推断而补上2.2数据清洗如何处理空缺值忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法2.2数据清洗噪声数据噪声:一个测量变量中的随机错误或偏差引起噪声的原因•数据收集工具的问题•数据输入错误•数据传输错误•技术限制•命名规则的不一致2.2数据清洗噪声数据处理分箱(binning):•首先排序数据,并将他们分到等深的箱中•可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑回归:通过让数据适应回归函数来平滑数据聚类:检测并且去除孤立点计算机和人工检查结合:计算机检测可疑数据,然后对它们进行人工判断分箱方法price的排序后数据:4,8,15,21,21,24,25,28,34划分为(等深的)箱:•箱1:4,8,15•箱2:21,21,24•箱3:25,28,34用箱平均值平滑:•箱1:9,9,9•箱2:22,22,22•箱3:29,29,29用箱边界平滑:•箱1:4,4,15•箱2:21,21,24•箱3:25,25,342.2数据清洗回归xyy=x+1X1Y1Y1’2.2数据清洗通过聚类分析检测离群点,消除噪声:聚类将类似的值聚成簇。直观的,落在簇集合之外的值被视为离群点聚类2.2数据清洗本章内容2.0认识数据2.1为什么要预处理数据2.2数据清理2.3数据集成和变换2.4数据归约2.3数据集成和变换数据集成:将多个

1 / 65
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功