2-数据预处理

水木~七七
1 ℃
2020-04-28

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第二章数据预处理主讲教师：魏宏喜(博士，副教授)E-mail:cswhx@imu.edu.cn2第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约3第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约4为什么进行数据预处理？现实世界的数据是“脏的”——数据多了，什么问题都会出现。不完整缺少数据值；缺乏某些重要属性；仅包含汇总数据；e.g.,occupation=有噪声包含错误或者孤立点e.g.Salary=-10数据不一致e.g.,在编码或者命名上存在差异e.g.,过去的等级：“1,2,3”,现在的等级：“A,B,C”e.g.,户籍系统中的身份证号其后不一致e.g.,Age=“42”Birthday=“03/07/1997”5数据为什么会变“脏”？数据不完整的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素“人为/硬件/软件”的问题噪声数据（不正确的值）的成因数据收集工具的问题数据输入时的“人为/计算机”造成的错误数据传输中产生的错误数据不一致性的成因不同的数据源违反了某种一致性原则6数据预处理为什么是重要的？没有高质量的数据，就没有高质量的挖掘结果。高质量的决策必须依赖高质量的数据。e.g.重复值或者空缺值将会产生不正确的挖掘结果。数据预处理是数据挖掘过程中占工作量最大的一个步骤。(60%的工作量)7数据质量的多维度量一个广为认可的多维度量观点：精确度完整度一致性合乎时机可信度附加价值可解释性8数据预处理的主要任务数据清理填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性。数据集成集成多个数据库或文件。数据变换规范化和聚集。数据归约得到数据集的压缩表示，它比原始数据集小得多，但可以得到相同或相近的挖掘结果。910第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约11数据清理数据清理任务填写空缺的值识别离群点和平滑噪声数据纠正不一致的数据解决数据集成造成的冗余12空缺值数据并不总是完整的例如：数据库表中，很多条记录的对应字段没有相应值，比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时，有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上13如何处理空缺值可行的方法：人工填写空缺值：工作量大使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值14噪声数据引起噪声的原因：数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致15如何处理噪声数据计算机和人工检查结合计算机检测可疑数据，然后对它们进行人工判断效率较低回归通过让数据适应回归函数来平滑数据聚类监测并且去除孤立点16回归xyy=x+1X1Y1Y1’17聚类通过聚类分析检测孤立点，消除噪声聚类将类似的值聚成簇。落在簇集合之外的值被视为孤立点。18第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约19数据集成数据集成：将多个数据源中的数据整合到一个一致的存储中的过程；可能产生数据冗余。20处理数据集成中的冗余数据集成多个数据库时，经常会出现冗余数据对象识别：同一属性或对象在不同的数据库中会有不同的字段名（性别：字段名可能是sex或者gender）；结论：如果能够仔细地将多个数据源中的数据集成起来，将减少或避免结果数据中的冗余与不一致性，从而可以提高挖掘的速度和质量。21数据变换数据变换：将数据转换成适合挖掘的统一形式。规范化：将数据按比例缩放，使之落入一个小的特定区间。最小—最大规范化z-score规范化22数据变换——规范化最小—最大规范化z-score规范化当最大、最小值未知时适用AAAAAAminnewminnewmaxnewminmaxminvv_)__('AAdevstandardmeanvv_'23第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约24数据归约(1)为什么需要进行数据规约？数据集中往往存有海量数据；在整个数据集上进行复杂的数据分析与挖掘需要很长的时间。数据归约数据归约可以用来得到数据集的归约表示，它能够比原始数据集小得多，但可以产生相同的（或几乎相同的）挖掘结果。25数据归约(2)常用的数据归约策略维归约，e.g.移除不重要的属性数据压缩数值归约，e.g.使用模型来表示数据说明：用于数据归约的时间不应当超过或“抵消”在归约后的数据上执行挖掘节省的时间。26维归约通过删除不相干的属性或维，用以减少数据量。常用方法：主成分分析（PCA）降维例如：裤子（腰围+裤长）27数据压缩有损压缩VS.无损压缩原始数据压缩后的数据无损压缩近似的原始数据28数值归约通过选择替代的或者较小的数据表示形式来减少数据量。有参方法使用一个参数模型估计数据，最后只存储参数即可，不用存储数据。常用方法：线性回归方法；多元回归。无参方法不使用模型的方法来存储数据；常用方法：直方图，聚类，选样(采样)。29数值规约——回归分析线性回归：数据被拟合为一条直线Y=wX+b两个回归系数w和b，由已知数据来进行估算；通常使用最小二乘法来确定这条直线。多元回归：线性回归的扩充，允许响应变量Y被建模为两个或多个预测变量的线性函数Y=b0+b1X1+b2X2.多元回归可以拟合多种非线性函数。30数值规约——直方图一种流行的数据归约技术；将某属性的数据划分为不相交的子集，或桶，桶中放置该值的出现频率。0510152025303540100003000050000700009000031数值规约——聚类将数据集划分为聚类，然后通过聚类（中心）来表示数据集。前提：如果数据可以组成各种不同的聚类，则该技术非常有效；反之，如果数据界线模糊，则聚类方法无效。聚类的定义和算法都有很多选择，将在第五章对聚类分析进行深入探讨。32数值规约——选样(采样)用较少的随机样本（子集）来表示原始数据集。对数据集D的样本选择：s个样本无放回简单随机抽样（SRSWOR）：从D的N个元组(不一致的样本)中抽取s个样本（sN）；s个样本有放回简单随机抽样（SRSWR）：过程同上，只是元组被抽取后，将被回放，可能再次被抽取；聚类选样：D中元组被分入M个互不相交的聚类中，可在其中的s个聚类上进行简单随机抽样（SRS，sM）。33选样——SRS原始数据34选样——聚类选样原始数据聚类选样35第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约