数据挖掘导论-第2章(v4)--ppt课件

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第2章数据数据类型数据质量数据预处理相似性和相异性度量1PPT课件2.1数据类型2.1.1属性与度量2.1.2数据集的类型2PPT课件数据数据集是数据对象的集合数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)的属性描述数据对象的其他名称记录、点、向量、模式、事件、案例、样本、观测或实体属性(attribute)是对象的性质或特性,他因对象而异,或随时间而变化属性的其他名称变量、特性、字段、特征或维TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10AttributesObjects属性如何测量和描述,既取决于事物本身的客观性质,也和所掌握的技术手段相关。涉及到测量精度:海岸线长度。虹膜颜色(分几类颜色描述、RBG均值描述、RBG直方图描述)3PPT课件123557815104ABCDE测量标度是将数值或符号与对象的属性相关联的规则。属性的性质不必与用来度量它的值的性质相同。属性的类型序性质、可加性序性质4PPT课件属性的类型属性的类型,即测量标度类型,取决于下列4种数值性质:属性值(数值)的性质1、Distinctness(相异性):=2、Order(序):3、Addition(加法):+-Multiplication(乘法):*/属性的类型不同,允许的操作不同5PPT课件属性的类型Therearedifferenttypesofattributes标称(Nominal)Examples:邮编、雇员ID序数(Ordinal)Examples:成绩、街道号码区间(Interval)Examples:日期、温度比率(Ratio)Examples:绝对温度、长度、年龄、计数6PPT课件表2-2不同的属性类型属性类型描述例子操作标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=,)邮政编码、雇员ID号、眼球颜色、性别众数、熵、列联相关、2检验序数属性的值提供足够的信息确定对象的序(,)矿石硬度、{好,较好,最好}、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验对于区间属性,值之间的差是有意义的,即存在测量单位(,)日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t和F检验对于比率变量,差和比率都是有意义的(*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差分类的(定性的)数值的(定量的)标称序数区间比率7PPT课件表2-3定义属性层次的变换属性类型变换注释任何一对一变换,例如值的一个排列如果所有雇员的ID号都重新赋值,不会导致任何不同值的保序变换,即新值=f(旧值),其中f是单调函数包括概念好、较好、最好的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示新值=a×旧值+b,其中a、b是常数华氏和摄氏温度标度零度的位置和1度的大小(单位)不同新值=a×旧值长度可以用米或英尺度量分类的(定性的)数值的(定量的)标称序数区间比率8PPT课件用值的个数描述属性:离散vs.连续属性离散属性(DiscreteAttribute)有限或无限可数(countableinfinite)个值例:邮政编码,计数,文档集的词常表示为整数变量.注意:二元属性(binaryattributes)是离散属性的特例连续属性(ContinuousAttribute)属性值为实数例:温度,高度,重量.实践中,实数只能用有限位数字的数度量和表示.连续属性一般用浮点变量表示.9PPT课件数据集的一般特性维度(Dimensionality)数据集的维度是数据集中的对象具有的属性数目维灾难(CurseofDimensionality)维归约(dimensionalityreduction)稀疏性(Sparsity)如具有非对称特征的数据集,一个对象的大部分属性上的值都为0只存储和处理非零值分辨率(Resolution)数据的模式依赖于分辨率——度量尺度(scale)在数米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到10PPT课件数据集类型(三大类)记录数据数据矩阵(DataMatrix)文本数据(DocumentData):每篇文档可以表示成一个文档-词矩阵事务数据(TransactionData)基于图形(Graph)的数据WorldWideWeb分子结构(MolecularStructures)有序(Ordered)数据空间数据(SpatialData)时间数据(TemporalData)序列数据(SequentialData)11PPT课件数据集类型1:记录数据:数据矩阵数据矩阵:如果一个数据集中的所有数据对象都具有相同的数值属性集,则数据对象可以看做是多维空间中的点,其中每个位代表描述对象的一个不同属性。这样的数据集可以用一个mXn的矩阵表示pregplaspresskininsumasspediageclass61487235033.60.62750positive1856629026.60.35131negative8183640023.30.67232positive12PPT课件数据集类型1:记录数据:事务数据典型的记录数据:事务数据或购物篮数据TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,Milk13PPT课件数据集类型2:基于图形的数据1带有对象之间联系的数据Examples:HTMLLinks14PPT课件数据集类型2:基于图形的数据2具有图形对象的数据对象具有结构,即对象包含具有联系的子对象例:苯分子的球—棍图,包含碳原子(黑色)和氢原子(灰色)15PPT课件数据集类型3:有序数据:时序数据有序数据有多种,常常涉及时间或空间序时序数据(sequentialdata)也称时间数据(temporaldata)时间次序重要,但具体时间不重要例:事务序列16PPT课件数据集类型3:有序数据:序列数据序列数据(sequencedata)个体项的序列例:基因组序列数据DNA都由4种核苷酸A,T,G和C构造没有时间标记,但与时序数据类似重要的是在序列中的位置GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG17PPT课件数据集类型3:有序数据:时间序列数据时间序列数据(timeseriesdata)特殊的时序数据,其中每个记录都是一个时间序列(timeseries),即一段时间的测量序列时间自相关(temporalautocorrelation),即如果两个测量的时间很接近,这些测量的值通常非常相似18PPT课件数据集类型3:有序数据:空间数据空间数据具有空间属性,如位置或区域例:不同的地理位置收集的气象数据(降水量、气温、气压)空间自相关性(spatialautocorrelation):物理上靠近的对象趋向于在其他方面也相似右图每月是空间数据,显示多月是时间-空间数据(Spatial-TemporalData)19PPT课件2.2数据质量20PPT课件2.2数据质量2.2.1测量和数据收集问题1.测量误差和数据收集错误2.噪声和伪像3.精度、偏倚、准确率4.离群点5.遗漏值6.不一致的值7.重复的值2.2.2数据质量:应用问题21PPT课件测量误差和数据收集错误测量误差和数据收集错误测量误差(measurementerror)测量过程导致的任何问题,表现为记录值与实际值不同数据收集错误(datacollectionerror)遗漏数据对象或属性值,或不正确地包含数据对象等错误测量误差和数据收集错误都可能是系统的或随机的22PPT课件测量误差和数据收集错误数据中可能存在的问题噪声(测量误差的随机部分)离群点(可能同时涉及测量误差和数据收集错误)遗漏值(可能同时涉及测量误差和数据收集错误)不一致的值(可能同时涉及测量误差和数据收集错误)重复的值(可能同时涉及测量误差和数据收集错误)23PPT课件噪声和伪像噪声是测量误差的随机部分可能扭曲值或附加的谬误对象Examples:distortionofaperson’svoicewhentalkingonapoorphoneand“snow”ontelevisionscreenTwoSineWavesTwoSineWaves+Noise24PPT课件精度、偏倚、准确率精度:precision偏倚:bias准确率:accuracy25PPT课件离群点离群点(Outliers)dataobjectswithcharacteristicsthatareconsiderablydifferentthanmostoftheotherdataobjectsinthedataset26PPT课件遗漏值原因Informationisnotcollected(e.g.,peopledeclinetogivetheirageandweight)Attributesmaynotbeapplicabletoallcases(e.g.,annualincomeisnotapplicabletochildren)处理EliminateDataObjectsorAttribute删除数据对象或属性EstimateMissingValues估计遗漏值IgnoretheMissingValueDuringAnalysis分析时忽略遗漏值27PPT课件不一致的值数据可能包含不一致的值例如,地址字段,其中列出了邮政编码和城市,但是特定的邮政编码区域并不包含在该城市纠正不一致需要附加或冗余信息时间序列数据中的不一致可能是使用不同的测量手段例:海洋表面温度(SST)1958~1982年用船或浮标收集SST1983年之后使用卫星收集SST两组数据,每组内的年相互之间趋向于正相关,但与另一组的年负相关28PPT课件重复数据Datasetmayincludedataobjectsthatareduplicates,oralmostduplicatesofoneanotherMajorissuewhenmergingdatafromheterogeneoussourcesExamples:同一个人具有多个email地址SamepersonwithmultipleemailaddressesDatacleaning重复数据需要进行数据清洗Processofdealingwithduplicatedataissues29PPT课件数据质量:应用问题时效性有些数据收集后就开始老化例如,顾客的购买行为或Web浏览模式的快照只代表有限时间内的真实情况如果数据已经过时,则基于它的模型和模式也已经过时。相关性可用的数据必须包含应用所需要的信息例如,构造一个模型

1 / 78
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功