数据预处理ppt

windwolfhero
2 ℃
2020-01-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1第2章数据预处理主要内容2.1为什么要预处理数据2.2描述性数据汇总2.3数据清理2.4数据集成和变换2.5数据归约2.6数据离散化和概念分层产生232.1数据预处理的原因正确性（Correctness）一致性（Consistency）完整性（Completeness）可靠性（Reliability）数据质量的含义现实世界的数据不完整的缺少属性值或某些感兴趣的属性，或仅包含聚集数据。含噪声的包含错误或存在偏离期望的离群值。不一致的采用的编码或表示不同，如属性名称不同冗余的如属性之间可以相互导出5数据错误的不可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右[Redmen],[Orr98]数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力7数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点，解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果数据预处理的形式小结现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据，将在决策过程中得到高回报。2.2描述性数据汇总获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质，突显哪些数据值应当视为噪声或离群点。动机：更好的理解数据。主要内容：度量数据的中心趋势和离散程度、描述数据汇总的图形显示。2.2.1度量数据的中心趋势算数平均值最常用分布式度量可以通过如下方法计算度量（即函数）：将数据集划分成较小的子集，计算每个子集的度量，然后合并计算结果，得到原（整个）数据集的度量值。sum()、count()、min()、max()2.2.1度量数据的中心趋势…代数度量可以通过应用一个代数函数于一个或多个分布度量计算的度量。mean()、中列数整体度量必须对整个数据集计算的度量。中位数、众数代数度量mean()：加权平均：截断均值：去掉高、低极端值得到的均值。减小极端值对均值的影响。中列数（midrange）：(max+min)/2niixnx11niiniiiwxwx11整体度量中位数（median）：适用于倾斜的数据。近似值计算如下：设N个数值排序，若N为奇数，中位数是有序集的中间值；若N为偶数，中位数是中间两个值的平均值。例如：1,3,5,7中位数41,3,5,6,7中位数5cffnLmedianmedianl))(2/(1整体度量众数(mode)：集合中出现频率最高的值。单峰、多峰（双峰、三峰…）、无众数对于适度倾斜的单峰频率曲线，有如下的经验关系：)(3medianmeanmodemean16中位数、均值和众数17极差最大值与最小值之差四分位数中位数是第50个百分位数，是第2个四分位数第1个是第25个百分位数，Q1中间四分位数极差IQR=Q3–Q1离群点outlier与数据的一般行为或模型不一致的数据对象盒图方差、标准差反映了每个数与均值相比平均相差的数值2.2.2度量数据的离散程度度量数据的离散程度…盒图boxplot,也称箱线图从下到上五条线分别表示最小值、下四分位数Q1、中位数、上四分位数Q3和最大值盒的长度等于IRQ中位数用盒内的横线表示盒外的两条线（胡须）分别延伸到最小和最大观测值。盒图的功能1.直观明了地识别数据集中的离群点2.判断数据集的偏态和尾重3.比较几批数据的形状22直方图、分位数图、分位数-分位数图（q-q图）散布图、散布图矩阵局部回归（Loess）曲线2.2.3基本描述数据汇总的图形显示直方图Histogram概括给定属性分布的图形方法每个矩形等宽分位数图QuantilePlot观察单变量数据分布的简单有效方法散布图scatterplot直接观察是否存在簇(cluster)，离群点等每个点对应一个坐标对局部回归（Loess）曲线添加一条光滑曲线到散布图2.3数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理的任务：填充缺失的值，光滑噪声并识别离群点，纠正数据中的不一致。28忽略元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值2.3.1缺失值29分箱：通过考察数据的“近邻”（周围的值）来光滑有序数据的值。局部光滑。回归：用一个函数（回归函数）拟合数据来光滑数据。聚类：将类似的值聚集为簇。其他：如数据归约、离散化和概念分层。2.3.2噪声数据30分箱：通过考察数据的“近邻”（周围的值）来光滑有序数据的值。局部光滑。划分：等频、等宽光滑：用箱均值、用箱中位数、用箱边界（去替换箱中的每个数据）2.3.2噪声数据分箱法光滑数据Sorteddataforprice(indollars):4,8,9,15,21,21,24,25,26,28,29,34*Partitionintoequal-frequency(equi-depth)bins:-Bin1:4,8,9,15-Bin2:21,21,24,25-Bin3:26,28,29,34*Smoothingbybinmeans:-Bin1:9,9,9,9-Bin2:23,23,23,23-Bin3:29,29,29,29*Smoothingbybinboundaries:-Bin1:4,4,4,15-Bin2:21,21,25,25-Bin3:26,26,26,34回归：用一个函数（回归函数）拟合数据来光滑数据。线性回归多元线性回归聚类：将类似的值聚集为簇。检测离群点回归Regressionxyy=x+1X1Y1Y1’聚类ClusterAnalysis2.3.3数据清理作为一个过程偏差检测使用“元数据”编码使用的不一致、数据表示的不一致、字段过载等一些规则：唯一性规则、连续性规则、空值规则。商业工具：数据清洗工具、数据审计工具数据变换（纠正偏差）数据迁移工具提取/变换/载入（ETL）工具加强交互性数据清理工具：Potter’sWheel开发数据变换操作规范说明语言2.4数据集成和变换数据集成合并多个数据源中的数据，存放在一个一致的数据库（如数据仓库）中。源数据可能包括多个数据库，数据立方体或一般文件。数据变换将数据转换或统一成适合于挖掘的形式。37实体识别元数据可帮助避免错误属性冗余相关分析数据重复（元组冗余）数据值冲突的检测与处理表示、比例或编码不同2.4.1数据集成38平滑：去掉数据中的噪声。技术包括分箱、回归、聚类。聚集Aggregation：对数据进行汇总或聚集。数据泛化（概化）：使用概念分层，用高层概念替换低层或“原始”数据。规范化：将属性数据按比例缩放，使之落入一个小的特定区间。最小-最大、Z-Score、按小数定标规范化。属性构造（特征构造）：由给定的属性构造新的属性并添加到属性集中，以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。2.4.2数据变换规范化1）最小-最大规范化：将原始数据v经线性变换，映射到区间[new_minA,new_maxA]例如:income的最大，最小值分别为9000，2000，则将它的值映射到[0，1]时，若income的值6800规范后为：（6800-2000）/（9000-2000）*（1-0）+0=0.686AAAAAAminnewminnewmaxnewminmaxminvv_)__('存在问题：若存在离群点，可能影响规范化若在规范化后添加新的数据，当新数据落在原数据的区间[minA,maxA]之外，将导致“越界”错误。规范化…2）z-score规范化（零均值规范化）：属性A的值基于A的平均值和标准差规范化。对离群点不敏感AAvv'2.5数据归约DataReduction对海量数据进行复杂的数据分析和挖掘将需要很长时间，使得这种分析不现实或不可行。数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近保持原数据的完整性。对归约后的数据集挖掘将更有效，并产生相同（或几乎相同）的结果。数据归约数据归约策略：（1）数据立方体聚集：对数据立方体做聚集操作（2）属性子集选择：检测并删除不相关、弱相关或冗余的属性和维。（3）维度归约：删除不重要的属性（4）数值归约：用规模较小的数据表示、替换或估计原始数据（5）离散化和概念分层(concepthierarchy)产生属性的原始数值用区间值或较高层的概念替换2.5.1数据立方体聚集数据立方体存储多维聚集信息，提供对预计算的汇总数据进行快速访问。如：立方体内存储季度销售额，若对年销售额感兴趣，可对数据执行聚集操作，例如sum()等。2.5.2属性子集选择通过删除不相关或冗余的属性（或维）减小数据集。其目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索空间的启发式算法。如贪心算法：从局部最优到全局最优。逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳2.5.3维度归约维度归约使用数据编码或变换，以便得到原数据的归约或“压缩”表示。分为无损和有损两种。主要方法：串压缩：无损，但只允许有限的数据操作。小波变换（DWT）：有损，适合高维数据。主成分分析（PCA）：有损，能更好地处理稀疏数据。2.5.4数值归约通过选择替代的、“较小的”数据表示形式来减少数据量。可以分为参数方法和非参数方法。参数方法：回归（regression）和对数线性模型非参数方法：直方图、聚类、抽样抽样用数据的小得多的随机样本（子集）不是大型数据集。抽样方法s个样本无放回简单随机抽样（SRSWOR）s个样本有放回简单随机抽样（SRSWR）聚类抽样分层抽样2.6数据离散化和概念分层产生数据离散化技术用少数区间标记替换连续属性的数值，从而减少和简化了原来的数据。可以对一个属性递归地进行离散化，产生属性值的分层或多分辨率划分，称作概念分层。概念分层(concepthierarchy)用于归约数据：用较高层的概念替换较低层的概念。概念分层(-$400-$5,000)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)概念分层countryprovince_or_statecitystreet15distinctvalues365distinctvalues3567distinctvalues674,339distinctvalues习题1．为什么要进行数据预处理？2．分布式度量、代数度量、整体度量的概念。3．在数据清理中，对缺失值有哪些处理方法？