数据挖掘导论5/13/2020‹#›数据挖掘导论第二章数据数据挖掘导论5/13/2020‹#›数据是什么?样本和属性的集合属性(Attribute)是一个样本的特性或特征–例如:性别、年龄、气温–Attributeisalsoknownasvariable(变量),field(域),characteristic(特征),orfeature(特征)一组属性用来描述一个样本(Object)–Objectisalsoknownasrecord(记录),point(点),case(事例),sample(抽样),entity(实体),orinstance(实例)TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10属性样本数据挖掘导论5/13/2020‹#›属性值属性值是赋给一个属性的“数值(number)”或“符号(number)”属性和属性值的区别–同一个属性可以用不同的属性值来表示如:长度可以以米、里或公里为单位来表示–不同的属性可以用相同的属性值来表示如:ID和年龄的属性值都是实数但属性的含义可能不一样–ID取值没有限制,但年龄取值得在一定范围–对于ID的属性来说,“12”可能表示第12格;但对于年龄的属性,“12”则意味着12岁数据挖掘导论5/13/2020‹#›同一个属性可以用不同的方式测量属性可以用一种不描述属性全部性质的方式测量123557815104ABCDE两种不同的测量标度下的线段长度测量值数据挖掘导论5/13/2020‹#›属性的类型分类属性(定性的)–标称如:ID数值,性别,邮政编码–序数如:成绩,年级,高度{高,中,短}数值属性(定量的)–区间如:日历日期,温度(摄氏度)–比率如:绝对温度、年龄、质量数据挖掘导论5/13/2020‹#›属性值的特点属性的类型由其所支持的操作类型决定:–相异:=–排序:–相加:+-–相乘:*/–标称属性:相异–序数属性:相异、排序–区间属性:相异、排序、相加–比率属性:相异、排序、相加、相乘数据挖掘导论5/13/2020‹#›属性类型变换注释标称任何的一对一变换如果所有雇员的ID重新赋值,会出现什么异常吗?序数值的保序变换,即.,新值=f(旧值)其中f是单调函数包括好、较好、最好的属性可以完全等价地用值{1,2,3}或用{0.5,1,10}表示区间新值=a*旧值+b其中,a、b是常数华氏和摄氏温度的零度的位置不同,1度的大小(即单位长度)也不同比率新值=a*旧值长度可以用米或英尺度量数据挖掘导论5/13/2020‹#›离散属性和连续属性离散属性–只包含有限个或无限可数个值–如:邮政编码,计数,文档中的词–一般表达为实数变量–注:二值属性是离散属性的特例连续属性–实数作为属性值–如:温度,高度,重量–实际上,实值只能使用有限数字来测量和表示–连续属性通常表示为浮点变量数据挖掘导论5/13/2020‹#›数据集类型记录–数据矩阵–文档数据–事务数据基于图形的数据–万维网–分子结构有序数据–空间数据–时间数据–时序数据–基因组序列数据数据挖掘导论5/13/2020‹#›结构化数据的重要特征–维度维灾难–稀疏性只计数非零值–分辨率数据模依赖于分辨率数据挖掘导论5/13/2020‹#›记录数据数据集是记录的汇集,每个记录包含固定的数据字段集。TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes10数据挖掘导论5/13/2020‹#›nm数据矩阵如果一个数据集族中的所有数据对象都具有相同的数值属性集,则数据对象可以看做多维空间中的点,其中每个维代表对象的一个不同属性。这样的数据对象集可以用一个的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。1.12.216.226.2512.651.22.715.225.2710.23ThicknessLoadDistanceProjectionofyloadProjectionofxLoad1.12.216.226.2512.651.22.715.225.2710.23ThicknessLoadDistanceProjectionofyloadProjectionofxLoad数据挖掘导论5/13/2020‹#›文档数据文档可用词向量表示–每个词是向量的一个分量–每个分量的值是对应词在文档中出现的次数Document1seasontimeoutlostwingamescoreballplaycoachteamDocument2Document3305026020200702100300100122030数据挖掘导论5/13/2020‹#›事务数据一种特殊类型的记录数据,其中–每个记录涉及一系列的项–考虑一个杂货店。顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品是项。TIDItems1Bread,Coke,Milk2Beer,Bread3Beer,Coke,Diaper,Milk4Beer,Bread,Diaper,Milk5Coke,Diaper,Milk数据挖掘导论5/13/2020‹#›基于图形的数据如:通用图和HTML链接52125ahref=papers/papers.html#bbbbDataMining/aliahref=papers/papers.html#aaaaGraphPartitioning/aliahref=papers/papers.html#aaaaParallelSolutionofSparseLinearSystemofEquations/aliahref=papers/papers.html#ffffN-BodyComputationandDenseLinearSystemSolvers数据挖掘导论5/13/2020‹#›化学数据苯分子:C6H6数据挖掘导论5/13/2020‹#›有序数据时序事务数据AnelementofthesequenceItems/Events数据挖掘导论5/13/2020‹#›有序数据基因组序列数据GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG数据挖掘导论5/13/2020‹#›有序数据空间温度数据陆地和海洋的平均月温度数据挖掘导论5/13/2020‹#›数据质量什么样的数据质量问题?我们如何检测数据的问题?我们能做些什么来解决这些问题?数据质量问题举例:–噪声和离群点–遗漏值–重复数据数据挖掘导论5/13/2020‹#›噪声噪声指原始值的修改–如:在破旧的电话上谈话时,人的声音失真,电视屏幕上出现“雪花”TwoSineWavesTwoSineWaves+Noise数据挖掘导论5/13/2020‹#›离群点离群点是具有不同于数据集中其他大部分数据对象的特征的数据对象。数据挖掘导论5/13/2020‹#›遗漏值遗漏值的原因–没有收集到信息(如:人们拒绝透漏他们的年龄和体重)–属性不适用于所有情况(如:年收入不适用于儿童)处理遗漏值–删除数据对象–估计遗漏值–在分析期间忽略遗漏值–替换为所有可能的值(以其概率加权)数据挖掘导论5/13/2020‹#›重复数据数据集可能包含重复或几乎重复的数据对象。–从异构源合并数据时的主要问题如:–一个人有多个电子邮件地址去重复–处理重复数据问题的过程数据挖掘导论5/13/2020‹#›数据预处理聚集抽样维归约特征子集选择特征创建离散化和二元化变量变换数据挖掘导论5/13/2020‹#›聚集将两个或多个对象(属性)合并为单个对象(属性)动机–数据规约减少属性或对象的数量–范围或标度转换城市聚集到区域,州,国家等–更稳定的数据聚集数据具有较小的变异性数据挖掘导论5/13/2020‹#›聚集平均月降水量标准差的直方图平均年降水量标准差的直方图澳大利亚降水变化数据挖掘导论5/13/2020‹#›抽样抽样是一种选择数据对象子集进行分析的常用方法–长期用于数据的事先调查和最终的数据分析统计学使用抽样是因为得到感兴趣的整个数据集的费用太高、太费时间数据挖掘使用抽样是因为处理所有的数据的费用太高、太费时间数据挖掘导论5/13/2020‹#›抽样有效抽样的主要原理如下:–如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样–如果样本近似地具有原数据集相同的性质,则称它是有代表性的数据挖掘导论5/13/2020‹#›抽样方法简单随机抽样–选取任何特定项的概率相等无放回抽样–每个选中项立即从构成总体的所有对象集中删除有放回抽样–对象被选中时不从总体中删除在有放回抽样中,相同的对象可能被多次抽中分层抽样–将数据分成几个组;再分别从各个组中随机抽样数据挖掘导论5/13/2020‹#›样本容量8000points2000Points500Points数据挖掘导论5/13/2020‹#›样本容量从10组中的每一组中获取至少一个对象需要多大样本容量数据挖掘导论5/13/2020‹#›维灾难随着维度增加,数据在它所占的空间中越来越稀疏对于聚类和离群点检测,点之间的密度和距离的定义失去了意义随机生成500个点计算任何点对之间的最大和最小距离之间的差值数据挖掘导论5/13/2020‹#›维归约目的:–避免维灾难–减少数据挖掘算法所需的时间和内存量–允许数据更容易可视化–可以帮助消除不相关的属性或减少噪声技术–主成分分析–奇异值分解–其它:有监督的非线性技术数据挖掘导论5/13/2020‹#›维归约:PCA目标是找到捕获数据中最大变差的投影x2x1e数据挖掘导论5/13/2020‹#›维归约:PCA找出协方差矩阵的特征向量特征向量定义新空间x2x1e数据挖掘导论5/13/2020‹#›维归约:ISOMAP构造邻接图对于图中的每对点,计算最短路径距离–geodesicdistancesBy:Tenenbaum,deSilva,Langford(2000)数据挖掘导论5/13/2020‹#›Dimensions=10Dimensions=40Dimensions=80Dimensions=120Dimensions=160Dimensions=206维归约:PCA数据挖掘导论5/13/2020‹#›特征子集选择另一种降低数据维度的方法冗余特征–重复了包含在一个或多个其他属性中的许多或所有信息–如:一种产品的购买价格和所支付的销售税额不相关特征–包含对于手头的数据挖掘任务几乎完全没用的信息–如:学生的ID号码对于预测学生的总平均成绩是不相关的数据挖掘导论5/13/2020‹#›特征子集选择技术:–暴力法::尝试所有可能的特征子集作为数据挖掘算法的输入–嵌入方法:特征选择作为数据挖掘算法的一部分是理所当然的–过