数据挖掘导论Pang-ningTan,MichaelStieinbach,andVipinKumar著PearsonEducationLTD.范明等译人民邮电出版社第2章数据数据类型数据质量数据预处理相似性和相异性度量2.1数据类型2019年10月21日星期一数据挖掘导论4数据数据集是数据对象的集合数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)的属性描述数据对象的其他名称记录、点、向量、模式、事件、案例、样本、观测或实体属性的其他名称变量、特性、字段、特征或维TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10属性对象2019年10月21日星期一数据挖掘导论5属性与度量属性(Attribute)是对象的性质或特征例:眼球颜色、温度,etc.属性值(Attributevalues)是赋予属性的数或符号属性vs属性值相同的属性可以映射不同的属性值例如:高度可以用尺或米度量不同的属性可以映射到相同的值集合例如:ID和age都可以是整数但是,属性的性质可能不同ID没有什么限制,但age有最大和最小值2019年10月21日星期一数据挖掘导论6例:线段长度度量属性的方法可能与属性的性质不符例123557815104ABCDE2019年10月21日星期一数据挖掘导论7属性的类型不同类型的属性标称(Nominal)例:ID号、眼球颜色、邮政编码序数(Ordinal)例:军阶、gpa、用{tall,medium,short}表示的高度区间(Interval)例:日历、摄氏或华氏温度.比率(Ratio)例:开氏温度、长度、计数2019年10月21日星期一数据挖掘导论8属性值的性质Thetypeofanattributedependsonwhichofthefollowingpropertiesitpossesses:Distinctness:=Order:Addition:+-Multiplication:*/Nominalattribute:distinctnessOrdinalattribute:distinctness&orderIntervalattribute:distinctness,order&additionRatioattribute:all4properties2019年10月21日星期一数据挖掘导论9表2-2不同的属性类型属性类型描述例子操作标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象(=,)邮政编码、雇员ID号、眼球颜色、性别众数、熵、列联相关、2检验序数属性的值提供足够的信息确定对象的序(,)矿石硬度、{好,较好,最好}、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验对于区间属性,值之间的差是有意义的,即存在测量单位(,)日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t和F检验对于比率变量,差和比率都是有意义的(*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差分类的(定性的)数值的(定量的)标称序数区间比率2019年10月21日星期一数据挖掘导论10表2-3定义属性层次的变换属性类型变换注释任何一对一变换,例如值的一个排列如果所有雇员的ID号都重新赋值,不会导致任何不同值的保序变换,即新值=f(旧值),其中f是单调函数包括概念好、较好、最好的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示新值=a×旧值+b,其中a、b是常数华氏和摄氏温度标度零度的位置和1度的大小(单位)不同新值=a×旧值长度可以用米或英尺度量分类的(定性的)数值的(定量的)标称序数区间比率2019年10月21日星期一数据挖掘导论11离散vs.连续属性离散属性(DiscreteAttribute)有限或无限可数(countableinfinite)个值例:邮政编码、计数、文档集的词常表示为整数变量.连续属性(ContinuousAttribute)属性值为实数例:温度、高度、重量.实践中,实数只能用有限位数字的数度量和表示.连续属性一般用浮点变量表示.2019年10月21日星期一数据挖掘导论12对称vs.非对称二元属性二元属性(binaryattributes)仅取两个不同值,常用0、1表示是离散属性的特例对称的二元属性两个值一样重要例如,性别非对称的二元属性通常,一个值比另一个更重要重要的值通常比较少出现,通常用1表示例如,化验结果{阴性,阳性},其中阳性较少,但更值得关注2019年10月21日星期一数据挖掘导论13数据集的重要特性维度(Dimensionality)数据集的维度是数据集中的对象具有的属性数目维灾难(CurseofDimensionality)维归约(dimensionalityreduction)稀疏性(Sparsity)具有非对称特征的数据集,一个对象的大部分属性上的值都为0只存储和处理非零值分辨率(Resolution)模式依赖于度量尺度(scale)在数米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到2019年10月21日星期一数据挖掘导论14数据集类型记录DataMatrixDocumentDataTransactionData图(Graph)WorldWideWebMolecularStructures有序(Ordered)数据SpatialDataTemporalDataSequentialDataGeneticSequenceData2019年10月21日星期一数据挖掘导论15记录数据:典型情况记录数据有多种变体典型的记录数据Datathatconsistsofacollectionofrecords,eachofwhichconsistsofafixedsetofattributesTidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes102019年10月21日星期一数据挖掘导论16记录数据:数据矩阵如果数据对象都具有固定个数的数值属性,则可以吧数据对象看做多维空间中的点,其中每个位代表一个不同的属性这种数据可以用一个mn矩阵表示,其中m行,每个代表一个对象,n列,每列代表一个属性1.12.216.226.2512.651.22.715.225.2710.23ThicknessLoadDistanceProjectionofyloadProjectionofxLoad1.12.216.226.2512.651.22.715.225.2710.23ThicknessLoadDistanceProjectionofyloadProjectionofxLoad2019年10月21日星期一数据挖掘导论17记录数据:文档数据Eachdocumentbecomesa`term'vector,eachtermisacomponent(attribute)ofthevector,thevalueofeachcomponentisthenumberoftimesthecorrespondingtermoccursinthedocument2019年10月21日星期一数据挖掘导论18记录数据:事务数据Aspecialtypeofrecorddata,whereeachrecord(transaction)involvesasetofitems.Forexample,consideragrocerystore.Thesetofproductspurchasedbyacustomerduringoneshoppingtripconstituteatransaction,whiletheindividualproductsthatwerepurchasedaretheitems.TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,Milk2019年10月21日星期一数据挖掘导论19基于图形的数据1带有对象之间联系的数据Examples:HTMLLinks2019年10月21日星期一数据挖掘导论20基于图形的数据2具有图形对象的数据对象具有结构,即对象包含具有联系的子对象例:苯分子的球—棍图,包含碳原子(黑色)和氢原子(灰色)2019年10月21日星期一数据挖掘导论21有序数据:时序数据有序数据有多种,常常涉及时间或空间序时序数据(sequentialdata)也称时间数据(temporaldata)时间次序重要,但具体时间不重要例:事务序列2019年10月21日星期一数据挖掘导论22有序数据:序列数据序列数据(sequencedata)个体项的序列例:基因组序列数据DNA都由4种核苷酸A,T,G和C构造没有时间标记,但与时序数据类似重要的是在序列中的位置GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG2019年10月21日星期一数据挖掘导论23有序数据:时间序列数据时间序列数据(timeseriesdata)特殊的时序数据,其中每个记录都是一个时间序列(timeseries),即一段时间的测量序列时间自相关(temporalautocorrelation),即如果两个测量的时间很接近,这些测量的值通常非常相似2019年10月21日星期一数据挖掘导论24有序数据:空间数据空间数据具有空间属性,如位置或区域例:不同的地理位置收集的气象数据(降水量、气温、气压)空间自相关性(spatialautocorrelation):物理上靠近的对象趋向于在其他方面也相似右图每月是空间数据,显示多月是时间-空间数据(Spatial-TemporalData)2.2数据质量2019年10月21日星期一数据挖掘导论26数据质量数据质量有哪些问题?如何检测这些数据问题?如何处理这些数据问题?数据质量问题的例子:Noiseandoutliersmissingvaluesduplicatedata2019年10月21日星期一数据挖掘导论27数据质量测量误差和数据收集错误测量误差(measurementerror)测量过程导致的任何问题数据收集错误(datacollectionerror)遗漏数据对象或属性值,或不正确地包含数据对象等错误测量误差和数据收集错误都可能是系统的或随机的2019年10月21日星期一数据挖掘导论2