第2章数据数据类型数据质量数据预处理相似性和相异性度量1PPT课件2.1数据类型2.1.1属性与度量2.1.2数据集的类型2PPT课件数据数据集是数据对象的集合数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)的属性描述数据对象的其他名称记录、点、向量、模式、事件、案例、样本、观测或实体属性(attribute)是对象的性质或特性,他因对象而异,或随时间而变化属性的其他名称变量、特性、字段、特征或维TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10AttributesObjects属性如何测量和描述,既取决于事物本身的客观性质,也和所掌握的技术手段相关。涉及到测量精度:海岸线长度。虹膜颜色(分几类颜色描述、RBG均值描述、RBG直方图描述)3PPT课件123557815104ABCDE测量标度是将数值或符号与对象的属性相关联的规则。属性的性质不必与用来度量它的值的性质相同。属性的类型序性质、可加性序性质4PPT课件属性的类型属性的类型,即测量标度类型,取决于下列4种数值性质:属性值(数值)的性质1、Distinctness(相异性):=2、Order(序):3、Addition(加法):+-Multiplication(乘法):*/属性的类型不同,允许的操作不同5PPT课件属性的类型Therearedifferenttypesofattributes标称(Nominal)Examples:邮编、雇员ID序数(Ordinal)Examples:成绩、街道号码区间(Interval)Examples:日期、温度比率(Ratio)Examples:绝对温度、长度、年龄、计数6PPT课件表2-2不同的属性类型属性类型描述例子操作标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=,)邮政编码、雇员ID号、眼球颜色、性别众数、熵、列联相关、2检验序数属性的值提供足够的信息确定对象的序(,)矿石硬度、{好,较好,最好}、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验对于区间属性,值之间的差是有意义的,即存在测量单位(,)日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t和F检验对于比率变量,差和比率都是有意义的(*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差分类的(定性的)数值的(定量的)标称序数区间比率7PPT课件表2-3定义属性层次的变换属性类型变换注释任何一对一变换,例如值的一个排列如果所有雇员的ID号都重新赋值,不会导致任何不同值的保序变换,即新值=f(旧值),其中f是单调函数包括概念好、较好、最好的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示新值=a×旧值+b,其中a、b是常数华氏和摄氏温度标度零度的位置和1度的大小(单位)不同新值=a×旧值长度可以用米或英尺度量分类的(定性的)数值的(定量的)标称序数区间比率8PPT课件用值的个数描述属性:离散vs.连续属性离散属性(DiscreteAttribute)有限或无限可数(countableinfinite)个值例:邮政编码,计数,文档集的词常表示为整数变量.注意:二元属性(binaryattributes)是离散属性的特例连续属性(ContinuousAttribute)属性值为实数例:温度,高度,重量.实践中,实数只能用有限位数字的数度量和表示.连续属性一般用浮点变量表示.9PPT课件数据集的一般特性维度(Dimensionality)数据集的维度是数据集中的对象具有的属性数目维灾难(CurseofDimensionality)维归约(dimensionalityreduction)稀疏性(Sparsity)如具有非对称特征的数据集,一个对象的大部分属性上的值都为0只存储和处理非零值分辨率(Resolution)数据的模式依赖于分辨率——度量尺度(scale)在数米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到10PPT课件数据集类型(三大类)记录数据数据矩阵(DataMatrix)文本数据(DocumentData):每篇文档可以表示成一个文档-词矩阵事务数据(TransactionData)基于图形(Graph)的数据WorldWideWeb分子结构(MolecularStructures)有序(Ordered)数据空间数据(SpatialData)时间数据(TemporalData)序列数据(SequentialData)11PPT课件数据集类型1:记录数据:数据矩阵数据矩阵:如果一个数据集中的所有数据对象都具有相同的数值属性集,则数据对象可以看做是多维空间中的点,其中每个位代表描述对象的一个不同属性。这样的数据集可以用一个mXn的矩阵表示pregplaspresskininsumasspediageclass61487235033.60.62750positive1856629026.60.35131negative8183640023.30.67232positive12PPT课件数据集类型1:记录数据:事务数据典型的记录数据:事务数据或购物篮数据TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,Milk13PPT课件数据集类型2:基于图形的数据1带有对象之间联系的数据Examples:HTMLLinks14PPT课件数据集类型2:基于图形的数据2具有图形对象的数据对象具有结构,即对象包含具有联系的子对象例:苯分子的球—棍图,包含碳原子(黑色)和氢原子(灰色)15PPT课件数据集类型3:有序数据:时序数据有序数据有多种,常常涉及时间或空间序时序数据(sequentialdata)也称时间数据(temporaldata)时间次序重要,但具体时间不重要例:事务序列16PPT课件数据集类型3:有序数据:序列数据序列数据(sequencedata)个体项的序列例:基因组序列数据DNA都由4种核苷酸A,T,G和C构造没有时间标记,但与时序数据类似重要的是在序列中的位置GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG17PPT课件数据集类型3:有序数据:时间序列数据时间序列数据(timeseriesdata)特殊的时序数据,其中每个记录都是一个时间序列(timeseries),即一段时间的测量序列时间自相关(temporalautocorrelation),即如果两个测量的时间很接近,这些测量的值通常非常相似18PPT课件数据集类型3:有序数据:空间数据空间数据具有空间属性,如位置或区域例:不同的地理位置收集的气象数据(降水量、气温、气压)空间自相关性(spatialautocorrelation):物理上靠近的对象趋向于在其他方面也相似右图每月是空间数据,显示多月是时间-空间数据(Spatial-TemporalData)19PPT课件2.2数据质量20PPT课件2.2数据质量2.2.1测量和数据收集问题1.测量误差和数据收集错误2.噪声和伪像3.精度、偏倚、准确率4.离群点5.遗漏值6.不一致的值7.重复的值2.2.2数据质量:应用问题21PPT课件测量误差和数据收集错误测量误差和数据收集错误测量误差(measurementerror)测量过程导致的任何问题,表现为记录值与实际值不同数据收集错误(datacollectionerror)遗漏数据对象或属性值,或不正确地包含数据对象等错误测量误差和数据收集错误都可能是系统的或随机的22PPT课件测量误差和数据收集错误数据中可能存在的问题噪声(测量误差的随机部分)离群点(可能同时涉及测量误差和数据收集错误)遗漏值(可能同时涉及测量误差和数据收集错误)不一致的值(可能同时涉及测量误差和数据收集错误)重复的值(可能同时涉及测量误差和数据收集错误)23PPT课件噪声和伪像噪声是测量误差的随机部分可能扭曲值或附加的谬误对象Examples:distortionofaperson’svoicewhentalkingonapoorphoneand“snow”ontelevisionscreenTwoSineWavesTwoSineWaves+Noise24PPT课件精度、偏倚、准确率精度:precision偏倚:bias准确率:accuracy25PPT课件离群点离群点(Outliers)dataobjectswithcharacteristicsthatareconsiderablydifferentthanmostoftheotherdataobjectsinthedataset26PPT课件遗漏值原因Informationisnotcollected(e.g.,peopledeclinetogivetheirageandweight)Attributesmaynotbeapplicabletoallcases(e.g.,annualincomeisnotapplicabletochildren)处理EliminateDataObjectsorAttribute删除数据对象或属性EstimateMissingValues估计遗漏值IgnoretheMissingValueDuringAnalysis分析时忽略遗漏值27PPT课件不一致的值数据可能包含不一致的值例如,地址字段,其中列出了邮政编码和城市,但是特定的邮政编码区域并不包含在该城市纠正不一致需要附加或冗余信息时间序列数据中的不一致可能是使用不同的测量手段例:海洋表面温度(SST)1958~1982年用船或浮标收集SST1983年之后使用卫星收集SST两组数据,每组内的年相互之间趋向于正相关,但与另一组的年负相关28PPT课件重复数据Datasetmayincludedataobjectsthatareduplicates,oralmostduplicatesofoneanotherMajorissuewhenmergingdatafromheterogeneoussourcesExamples:同一个人具有多个email地址SamepersonwithmultipleemailaddressesDatacleaning重复数据需要进行数据清洗Processofdealingwithduplicatedataissues29PPT课件数据质量:应用问题时效性有些数据收集后就开始老化例如,顾客的购买行为或Web浏览模式的快照只代表有限时间内的真实情况如果数据已经过时,则基于它的模型和模式也已经过时。相关性可用的数据必须包含应用所需要的信息例如,构造一个模型