数据及数据预处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘与商务智能DataMining&BusinessIntelligence第二章数据及数据预处理西安电子科技大学软件学院主讲人:黄健斌内容提纲2.1数据类型2.2数据质量2.3数据预处理2.4数据相似性和相异性度量2.5数据统计汇总2.6数据可视化记录数据关系记录数据矩阵,例如,数值矩阵,交叉文档数据:文本文件:词频向量交易数据图形和网络万维网社会或信息网络分子结构有序时间数据:时间序列顺序数据:交易序列基因序列数据视频数据的图像序列空间,图像和多媒体:空间数据:地图Document1seasontimeoutlostwingamescoreballplaycoachteamDocument2Document3305026020200702100300100122030TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,Milk2.1数据类型数据对象数据集由数据对象组成一个数据对象代表一个实体例子销售数据库:客户,商店物品,销售额医疗数据库:患者,治疗信息大学数据库:学生,教授,课程信息称为样品,示例,实例,数据点,对象,元组(tuple)。数据对象所描述的属性。数据库中的行-数据对象;列-“属性”。属性属性(或尺寸,特征,变量):一个数据字段,代表一个数据对象的特征或功能。例如,客户_ID,姓名,地址类型:标称二进制数字:定量规模区间缩放比率属性类型标称:类别,状态,或“名字的东西”Hair_color={黑色,棕色,金色,红色,红褐色,灰色,白色}婚姻状况,职业,身份证号码,邮政编码二进制只有2个状态(0和1)的属性对称二进制两种结果重要例如,性别不对称的二进制结果同样重要。例如,医疗测试(正面与负面)公约:将1至最重要的成果(例如,HIV阳性)序数词价值观有一个有意义的顺序(排名),但不知道连续值之间的大小。大小={小,中,大},等级,军队排名2.2数据质量被广泛接受的数据质量测量标准准确性完整性一致性合时性可信度解释性2.3数据预处理数据预处理:概述数据预处理主要任务数据清洗数据集成数据缩减数据转换和数据离散化总结2.3数据预处理主要任务数据清理填写缺失值,平滑噪声数据,识别或删除离群,并解决不一致问题数据集成整合多个数据库,多维数据集或文件数据缩减降维Numerosityreduction数据压缩数据转换和数据离散化正常化生成概念层次结构数据清洗在现实世界中的数据是“脏”的:不完整的:缺少属性值,缺乏某些属性值,或只包含总数据例如,职业=“”(丢失的数据)含嘈杂的噪音,错误或离群例如,工资=“-10”(错误)不一致的代码或不符的名称年龄=“42”生日=“03/07/1997”曾经评级“1,2,3”,现在评级“A,B,C”重复的记录之间的差异不完整(缺少)数据数据并不总是可用的例如,许多元组没有属性,如客户收入、销售数据的记录值丢失的数据,可能是由于设备故障与其他记录的数据不一致,从而删除因误会而未读入在读入的时候,某些数据可能不会被认为是重要的不是历史或更改的数据注册丢失的数据可能需要被推断如何处理丢失数据?忽略元组:通常是类标签丢失时(这样做分类),每个属性的缺失值有很大的差别手动填写遗漏值自动填写全局常量属性含义属性意味着所有样本属于同一类最有可能的值:基于诸如贝叶斯公式或决策树推理噪声数据噪声:一个测量变量中的随机错误或方差原因收集工具故障数据录入问题数据传输问题技术限制命名约定不一致其他数据问题需要数据清理如重复记录数据不完整不一致的数据如何处理噪声数据?回归数据拟合聚类检测和删除离群结合计算机和人工检查检测可疑的数据(例如人工处理可能的异常值)数据清洗数据的误差检测使用元数据(例如,领域,范围,依赖,分销)检查是否溢出检查唯一性规则,连续统治和空的规则使用商业工具数据清理:使用领域知识(例如,邮政编码,拼写检查),检测错误并改正数据审计:通过分析数据检测违规者(例如,关联和聚类规则和关系,寻找离群)数据迁移和整合数据迁移工具:允许指定的转换ETL(提取/转换/加载)工具:通过图形用户界面允许用户指定转换两个过程的集成迭代和交互数据集成数据集成将来自多个数据源的数据组合成一个连贯的数据源模式集成:例如,A.cust-idB.cust-#整合来自不同来源的元数据实体识别问题:识别来自多个数据源的真实世界的实体,例如,BillClinton=WilliamClinton数据冲突检测和解决对于同一个真实世界的实体,来自不同源的属性值可能的原因:不同的表述,不同的尺度,例如,公制与英制单位数据集成中的冗余信息的处理整合多个数据库经常发生数据冗余Objectidentification:相同的属性或对象可能有不同的名字在不同的数据库中Derivabledata:一个属性可能是“派生”的另一个表中的属性,例如,年收入通过相关性分析和协方差分析可以检测到冗余的属性仔细集成来自多个数据源,可能有助于减少/避免冗余和不一致的地方,并提高读取速度和质量相关分析Χ2(chi-square)testΧ2值越大,越有可能变量是相关的ThecellsthatcontributethemosttotheΧ2valuearethosewhoseactualcountisverydifferentfromtheexpectedcount相关性并不意味着因果关系#ofhospitalsand#ofcar-theftinacity是相关的两者都因果联系的第三个变量为人口ExpectedExpectedObserved22)(Χ2(chi-square)test举例PlaychessNotplaychessSum(row)Likesciencefiction250(90)200(360)450Notlikesciencefiction50(210)1000(840)1050Sum(col.)30012001500Χ2(卡方)计算(括号中的数字是预计计数基于两个类别中的数据分布计算)这表明,组中的like_science_fiction和play_chess相关93.507840)8401000(360)360200(210)21050(90)90250(22222相关分析数据(数字数据)相关系数(也称为皮尔逊积矩系数)其中n是元组的数目,而p和q是各自的具体值,σp和σq是各自的标准偏差,如果R(p,q)0,p和q是正相关的(p的值增加为q的),较高的相关性。R(p,q)=0:独立;R(p,q)0负相关qpqpqpnqpnpqnqqppr)1()()1())((,视觉评估相关散点图显示的相似性,从-1到1。相关(视为线性关系)相关测量对象之间的线性关系为了计算相关性,将数据对象标准化,p和q,然后计算他们的点积)(/))((pstdpmeanppkk)(/))((qstdqmeanqqkkqpqpncorrelatio),(协方差(数字数据)类似相关协方差其中n是元组的数目,p和q是各自的平均值或期望值,σp和σq是各自的标准偏差。正的协方差:如果COV(p,q)0,则p和q都倾向于是大于它们的预期值。负的协方差:如果在COV(p,q)0,则如果p是大于它的预期值,q是可能要小于它的预期值。独立性:COVP(p,q)=0可具有某些对随机变量的协方差为0,但不是独立的。一些额外的假设(例如,数据是否服从多元正态分布)做了协方差为0意味着独立协方差:举例它可以简化计算假设两只股票A和B具有在1个星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。问题:如果股票都受到同行业的趋势,他们的价格一起上升或下降?E(A)=(2+3+5+4+6)/5=20/5=4E(B)=(5+8+10+11+14)/5=48/5=9.6COV(A,B)=(2×5+3×8+5×10+4×11+6×14)/5-4×9.6=4结论:A和B在一起上升,因为Cov(A,B)0。数据缩减策略数据还原:还原面积更小、体积减少的数据集,但尚未产生相同(或几乎相同)的分析结果为什么数据缩减?-由于数据仓库可以存储TB的数据,因此在一个完整的数据集上运行时,复杂的数据分析可能需要一个很长的时间数据缩减战略降维,例如,删除不重要的属性小波变换主成分分析(PCA)特征选择,特征创建Numerosityreduction回归和对数线性模型直方图,聚类,取样数据立方体聚集数据压缩降维原因随着维数的增加,数据变得越来越稀疏对孤立点分析使得密度和距离变得意义不大子空间的可能的组合将成倍增长降维作用避免维数灾难帮助消除无关紧要的属性,并降低噪音减少数据挖掘所需的时间和空间更容易的可视化降维技术小波变换主成分分析监督和非线性技术(例如,特征选择)将数据映射到一个新的空间傅里叶变换小波变换TwoSineWavesTwoSineWaves+NoiseFrequency小波变换是什么?分解成不同的频率子带的信号适用于n维信号转化的数据是在不同级别的分辨率中保存用于图像压缩小波变换离散小波变换(DWT)的线性信号处理压缩近似:只有一小部分的小波系数最强离散傅里叶变换(DFT)类似,但在空间中有更好的压缩效果方法:长度L,必须是2的整数次幂(0填充,必要时)每个变换具有2个功能:平滑,差异适用于双数据,在两个集得到的长度为L/2的数据施加两个递归函数,直到达到所需要的长度小波变换小波:空间高效分解的数学工具[2,2,0,2,3,5,4,4]可转化为S=S^=[23/4,-11/4,1/2,0,0,-1,0]压缩:许多小细节系数可以替换为0的,只有显示的系数被保留为什么小波变换?使用hat-shape滤波器强调区域点聚集的地方在边界禁止较弱的信息有效去除离群值对噪声不敏感多分辨率在不同尺度检测任意形状的集群高效复杂度为O(N)只适用于低维数据主成分分析(PCA)原始数据投影到一个更小的空间,从而查找投影来捕获最大的变化量数据的,从而维数降低。发现协方差矩阵的特征向量,用这些特征向量定义新的空间x2x1e主成分分析(步骤)从n维向量中的N个数据中,求k≤N个正交向量(主成分)能用来表示数据归一输入数据:每个属性落在相同的范围内(单元)计算K:正交向量,即,主成分每个输入的数据(矢量)是k个主分量矢量的线性组合通过排序减少“意义”或强度的组成部分由于这些组件的排序方式,消除了弱的元件,即具有低方差(即,使用最强的主成分,也能够重建原始数据的一个很好的近似,可以减少数据的大小)属性子集选择通过属性子集选择以减少数据的维多余的属性复制所有的信息中包含一个或多个其他属性例如,购买一个产品的价格和支付额两个属性相同,是多余的属性不相关的属性不包含任何信息的属性例如,学生的ID往往在预测学生的GPA是不相关的启发式搜索属性选择d的属性有可能是2d属性组合典型的启发式属性选择方法:Bestsingleattribute属性独立性假设:选择进行检验分步进行的功能选择:分步进行属性消除:反复淘汰不需要的属性最佳组合的属性选择和淘汰优化分支和绑定:使用属性消除和回溯创建属性(特征生成)创建新的属性(特征),可以更有效地比原来的数据捕捉重要的信息三个一般方法属性提取domain-specific

1 / 91
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功