2-数据预处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章数据预处理主讲教师:魏宏喜(博士,副教授)E-mail:cswhx@imu.edu.cn2第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约3第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约4为什么进行数据预处理?现实世界的数据是“脏的”——数据多了,什么问题都会出现。不完整缺少数据值;缺乏某些重要属性;仅包含汇总数据;e.g.,occupation=有噪声包含错误或者孤立点e.g.Salary=-10数据不一致e.g.,在编码或者命名上存在差异e.g.,过去的等级:“1,2,3”,现在的等级:“A,B,C”e.g.,户籍系统中的身份证号其后不一致e.g.,Age=“42”Birthday=“03/07/1997”5数据为什么会变“脏”?数据不完整的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素“人为/硬件/软件”的问题噪声数据(不正确的值)的成因数据收集工具的问题数据输入时的“人为/计算机”造成的错误数据传输中产生的错误数据不一致性的成因不同的数据源违反了某种一致性原则6数据预处理为什么是重要的?没有高质量的数据,就没有高质量的挖掘结果。高质量的决策必须依赖高质量的数据。e.g.重复值或者空缺值将会产生不正确的挖掘结果。数据预处理是数据挖掘过程中占工作量最大的一个步骤。(60%的工作量)7数据质量的多维度量一个广为认可的多维度量观点:精确度完整度一致性合乎时机可信度附加价值可解释性8数据预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性。数据集成集成多个数据库或文件。数据变换规范化和聚集。数据归约得到数据集的压缩表示,它比原始数据集小得多,但可以得到相同或相近的挖掘结果。910第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约11数据清理数据清理任务填写空缺的值识别离群点和平滑噪声数据纠正不一致的数据解决数据集成造成的冗余12空缺值数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上13如何处理空缺值可行的方法:人工填写空缺值:工作量大使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值14噪声数据引起噪声的原因:数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致15如何处理噪声数据计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断效率较低回归通过让数据适应回归函数来平滑数据聚类监测并且去除孤立点16回归xyy=x+1X1Y1Y1’17聚类通过聚类分析检测孤立点,消除噪声聚类将类似的值聚成簇。落在簇集合之外的值被视为孤立点。18第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约19数据集成数据集成:将多个数据源中的数据整合到一个一致的存储中的过程;可能产生数据冗余。20处理数据集成中的冗余数据集成多个数据库时,经常会出现冗余数据对象识别:同一属性或对象在不同的数据库中会有不同的字段名(性别:字段名可能是sex或者gender);结论:如果能够仔细地将多个数据源中的数据集成起来,将减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。21数据变换数据变换:将数据转换成适合挖掘的统一形式。规范化:将数据按比例缩放,使之落入一个小的特定区间。最小—最大规范化z-score规范化22数据变换——规范化最小—最大规范化z-score规范化当最大、最小值未知时适用AAAAAAminnewminnewmaxnewminmaxminvv_)__('AAdevstandardmeanvv_'23第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约24数据归约(1)为什么需要进行数据规约?数据集中往往存有海量数据;在整个数据集上进行复杂的数据分析与挖掘需要很长的时间。数据归约数据归约可以用来得到数据集的归约表示,它能够比原始数据集小得多,但可以产生相同的(或几乎相同的)挖掘结果。25数据归约(2)常用的数据归约策略维归约,e.g.移除不重要的属性数据压缩数值归约,e.g.使用模型来表示数据说明:用于数据归约的时间不应当超过或“抵消”在归约后的数据上执行挖掘节省的时间。26维归约通过删除不相干的属性或维,用以减少数据量。常用方法:主成分分析(PCA)降维例如:裤子(腰围+裤长)27数据压缩有损压缩VS.无损压缩原始数据压缩后的数据无损压缩近似的原始数据28数值归约通过选择替代的或者较小的数据表示形式来减少数据量。有参方法使用一个参数模型估计数据,最后只存储参数即可,不用存储数据。常用方法:线性回归方法;多元回归。无参方法不使用模型的方法来存储数据;常用方法:直方图,聚类,选样(采样)。29数值规约——回归分析线性回归:数据被拟合为一条直线Y=wX+b两个回归系数w和b,由已知数据来进行估算;通常使用最小二乘法来确定这条直线。多元回归:线性回归的扩充,允许响应变量Y被建模为两个或多个预测变量的线性函数Y=b0+b1X1+b2X2.多元回归可以拟合多种非线性函数。30数值规约——直方图一种流行的数据归约技术;将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率。0510152025303540100003000050000700009000031数值规约——聚类将数据集划分为聚类,然后通过聚类(中心)来表示数据集。前提:如果数据可以组成各种不同的聚类,则该技术非常有效;反之,如果数据界线模糊,则聚类方法无效。聚类的定义和算法都有很多选择,将在第五章对聚类分析进行深入探讨。32数值规约——选样(采样)用较少的随机样本(子集)来表示原始数据集。对数据集D的样本选择:s个样本无放回简单随机抽样(SRSWOR):从D的N个元组(不一致的样本)中抽取s个样本(sN);s个样本有放回简单随机抽样(SRSWR):过程同上,只是元组被抽取后,将被回放,可能再次被抽取;聚类选样:D中元组被分入M个互不相交的聚类中,可在其中的s个聚类上进行简单随机抽样(SRS,sM)。33选样——SRS原始数据34选样——聚类选样原始数据聚类选样35第二章数据预处理为什么对数据进行预处理数据清理数据集成和变换数据归约

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功