第2章数据数据类型数据质量数据预处理相似性和相异性度量2.1数据类型2019年10月21日星期一数据挖掘导论3数据数据集是数据对象的集合数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)的属性描述数据对象的其他名称记录、点、向量、模式、事件、案例、样本、观测或实体属性的其他名称变量、特性、字段、特征或维TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10AttributesObjects2019年10月21日星期一数据挖掘导论4属性与度量一个属性是事物的一个特征Examples:一个人的眼睛颜色,温度,etc.属性值是赋给属性的数值或标志属性vs属性值某些属性能被映射成不同的属性值Example:高度能用英尺或米来度量不同的属性能被映射成相同类型属性值Example:ID和年龄的值都是整型值但是属性的性质不同ID的值没有限制,而年龄有最大值和最小值2019年10月21日星期一数据挖掘导论5例:线段长度属性可以用一种不描述属性全部性质的方式测量123557815104ABCDE2019年10月21日星期一数据挖掘导论6属性的类型四种不同类型的属性标称(Nominal)Examples:IDnumbers,eyecolor,zipcodes序数(Ordinal)Examples:rankings(e.g.,tasteofpotatochipsonascalefrom1-10),grades,heightin{tall,medium,short}区间(Interval)Examples:calendardates,temperaturesinCelsiusorFahrenheit.比率(Ratio)Examples:temperatureinKelvin,length,time,counts2019年10月21日星期一数据挖掘导论7属性值的性质数据类型取决于能执行以下哪些运算:相异性:=有序性:可加性:+-可乘性:*/标称属性:相异性序数属性:相异性,有序性区间属性:相异性,有序性,可加性比率属性:相异性,有序性,可加性,可乘性2019年10月21日星期一数据挖掘导论8表2-2不同的属性类型属性类型描述例子操作标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=,)邮政编码、雇员ID号、眼球颜色、性别众数、熵、列联相关、2检验序数属性的值提供足够的信息确定对象的序(,)矿石硬度、{好,较好,最好}、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验对于区间属性,值之间的差是有意义的,即存在测量单位(,)日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t和F检验对于比率变量,差和比率都是有意义的(*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差分类的(定性的)数值的(定量的)标称序数区间比率2019年10月21日星期一数据挖掘导论9表2-3定义属性层次的变换属性类型变换注释任何一对一变换,例如值的一个排列如果所有雇员的ID号都重新赋值,不会导致任何不同值的保序变换,即新值=f(旧值),其中f是单调函数包括概念好、较好、最好的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示新值=a×旧值+b,其中a、b是常数华氏和摄氏温度标度零度的位置和1度的大小(单位)不同新值=a×旧值长度可以用米或英尺度量分类的(定性的)数值的(定量的)标称序数区间比率2019年10月21日星期一数据挖掘导论10离散vs.连续属性离散属性(DiscreteAttribute)有限或无限可数(countableinfinite)个值例:邮政编码,计数,文档集的词常表示为整数变量.注意:二元属性(binaryattributes)是离散属性的特例连续属性(ContinuousAttribute)属性值为实数例:温度,高度,重量.实践中,实数只能用有限位数字的数度量和表示.连续属性一般用浮点变量表示.2019年10月21日星期一数据挖掘导论11数据集的特性维度(Dimensionality)数据集的维度是数据集中的对象具有的属性数目维灾难(CurseofDimensionality)维归约(dimensionalityreduction)稀疏性(Sparsity)具有非对称特征的数据集,一个对象的大部分属性上的值都为0只存储和处理非零值分辨率(Resolution)模式依赖于度量尺度(scale)在数米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到2019年10月21日星期一数据挖掘导论12数据集类型记录记录数据文档数据事务数据图(Graph)WorldWideWebMolecularStructures有序(Ordered)数据SpatialData(空间数据)TemporalData(时间数据)SequentialData(序列数据)GeneticSequenceData(基因序列数据)2019年10月21日星期一数据挖掘导论13记录数据:典型情况记录数据由多种变体典型的记录数据数据由一个记录集合组成,每个记录由一个属性集合组成。TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes102019年10月21日星期一数据挖掘导论14记录数据:数据矩阵如果数据对象有数值类型的属性,这时数据对象可以被看作是多维空间的点,空间中的每一维表示一个属性。这样的数据集可以被表示成mn矩阵,每行表示记录,每列表示属性。1.12.216.226.2512.651.22.715.225.2710.23ThicknessLoadDistanceProjectionofyloadProjectionofxLoad1.12.216.226.2512.651.22.715.225.2710.23ThicknessLoadDistanceProjectionofyloadProjectionofxLoad2019年10月21日星期一数据挖掘导论15记录数据:文档数据每个文档是一个关键词向量,每个关键词是向量的一个属性属性的值是对应的关键词在文档中出现的次数2019年10月21日星期一数据挖掘导论16记录数据:事务数据一种特殊类型的记录数据每个记录是一个物品集合.例如:对于一个超市,其交易记录就是一个事务记录TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,Milk2019年10月21日星期一数据挖掘导论17基于图形的数据1带有对象之间联系的数据Examples:HTMLLinks2019年10月21日星期一数据挖掘导论18基于图形的数据2具有图形对象的数据对象具有结构,即对象包含具有联系的子对象例:苯分子的球—棍图,包含碳原子(黑色)和氢原子(灰色)2019年10月21日星期一数据挖掘导论19有序数据:时序数据有序数据有多种,常常涉及时间或空间序时序数据(sequentialdata)也称时间数据(temporaldata)时间次序重要,但具体时间不重要例:事务序列2019年10月21日星期一数据挖掘导论20有序数据:序列数据序列数据(sequencedata)个体项的序列例:基因组序列数据DNA都由4种核苷酸A,T,G和C构造没有时间标记,但与时序数据类似重要的是在序列中的位置GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG2019年10月21日星期一数据挖掘导论21有序数据:时间序列数据时间序列数据(timeseriesdata)特殊的时序数据,其中每个记录都是一个时间序列(timeseries),即一段时间的测量序列时间自相关(temporalautocorrelation),即如果两个测量的时间很接近,这些测量的值通常非常相似2019年10月21日星期一数据挖掘导论22有序数据:空间数据空间数据具有空间属性,如位置或区域例:不同的地理位置收集的气象数据(降水量、气温、气压)空间自相关性(spatialautocorrelation):物理上靠近的对象趋向于在其他方面也相似右图每月是空间数据,显示多月是时间-空间数据(Spatial-TemporalData)2.2数据质量2019年10月21日星期一数据挖掘导论24数据质量什么是数据质量问题?怎么发现数据质量问题?怎么处理数据质量问题?Examplesofdataqualityproblems:数据噪音和离群值丢失的值重复数据2019年10月21日星期一数据挖掘导论25产生原因测量误差和数据收集错误测量误差(measurementerror)测量过程导致的任何问题数据收集错误(datacollectionerror)遗漏数据对象或属性值,或不正确地包含数据对象等错误测量误差和数据收集错误都可能是系统的或随机的2019年10月21日星期一数据挖掘导论26数据质量:噪声噪声是测量误差的随机部分可能扭曲值或附加的谬误对象Examples:当用信号不好的电话通话时所产生的声音的扭曲;电视屏幕上的灰尘。TwoSineWavesTwoSineWaves+Noise2019年10月21日星期一数据挖掘导论27数据质量:离群点离群点(Outliers)有着和其它数据对象明显不同特征的数据对象。2019年10月21日星期一数据挖掘导论28数据质量:遗漏值原因信息未收集(e.g.,人们拒绝透漏年龄和身高信息)不是所有的对象都有某种属性(e.g.,小孩没有年收入属性)处理去掉缺了某项属性的记录评估缺失的属性值在分析过程中忽略确实的属性值2019年10月21日星期一数据挖掘导论29数据质量:不一致的值数据可能包含不一致的值例如,地址字段,其中列出了邮政编码和城市,但是特定的邮政编码区域并不包含在该城市纠正不一致需要附加或冗余信息时间序列数据中的不一致可能是使用不同的测量手段例:海洋表面温度(SST)1958~1982年用船或浮标收集SST1983年之后使用卫星收集SST两组数据,每组内的年相互之间趋向于正相关,但与另一组的年负相关2019年10月21日星期一数据挖掘导论30数据质量:重复数据数据集包含重复的数据对象,或者包含基本一样的数据对象这是从不同的数据源收集数据的主要问题Examples: