数据挖掘建模――分类方法―方晓萍

zsiyu
2 ℃
2020-02-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Email:fxpmath@csu.edu.cn数据挖掘建模—分类方法2013-12-28数学建模的思路与步聚模型准备模型假设模型构成模型求解模型分析模型检验模型应用美赛建模开放性！了解实际背景明确建模目的搜集有关信息掌握对象特征形成一个比较清晰的“问题”模型准备从“题意”延伸。。。在合理与简化之间作出折中模型假设针对问题特点和建模目的作出合理的、简化的假设尽量使问题线性化、均匀化“假设”一定要对后面的建模有用，不作无用之假设！尽量采用简单的数学工具模型构成用数学的语言、符号描述问题发挥想像力使用类比法最好有自己的创新性思路！！建模的创造性模型求解各种数学方法软件计算机技术模型分析结果的误差分析统计分析模型对数据的稳定性分析灵敏度分析等档次模型检验与实际现象的信息、数据比较，检验模型的合理性、适用性确保模型结论“基本正确”，不悖常识！关于模型的检验，可以采用证明的方法，但更多的是对某些感兴趣的情形进行计算并分析结果、对重要参数的高中低水平进行计算并分析，考虑放松某些假设等。模型应用应用于实际问题解决实际问题将数学语言表述的解答“翻译”回实际对象能拓展更佳！数学建模的思路与步聚模型准备模型假设模型构成模型求解模型分析模型检验模型应用建模方法问题首要原则模型（first-principlemodels)数据挖掘建模首要原则模型根据“首要原则模型”建立基本的科学模型，然后建立在各个方面的应用，再用实验数据验证基本的“首要原则模型”，并估计一些难以直接测量或者根本不可能直接测量的参数。首要原则模型但是，在许多领域，基本的“首要原则模型”往往是未知的，或者所研究的系统太复杂，难以进行数学定型。随着计算机的广泛应用，此类系统生成了大量数据。可以利用这些易得的数据，估计系统变量之间的有效关系，来导出模型。从而变成直接从数据中开发模型，并进行相应的分析。运用基于计算机的方法（包括新技术），从数据中获得有用知识的整个过程，就叫做数据挖掘。数据挖掘通过数据挖掘分析代词的使用特色，来进行作者辨析表1前八十回词项出现次数（频数）词项我我家我们吾咱咱们余出现次数5403218071614047词项侬俺你你们你家汝奴出现次数10443006871582词项尔他他们他家伊渠自己出现次数1345066155320503词项自家这此那彼每各出现次数1252041034292978252397词项谁孰甚什么何如何何妨出现次数659230116656421417词项多少早晚怎么怎样怎出现次数105346431319表2后四十回词项出现次数（频数）词项我我家我们吾咱咱们余出现次数238015402302161词项侬俺你你们你家汝奴出现次数011707336631词项尔他他们他家伊渠自己出现次数3619802362770331词项自家这此那彼每各出现次数5242233419851329185词项谁孰甚什么何如何何妨出现次数220214731191472词项多少早晚怎么怎样怎出现次数49144872824数据挖掘识别作者1、陈述问题2、搜集数据3、进行数据预处理4、评估模型（挖掘数据）5、解释模型和得出结论数据挖掘过程1、陈述问题2、搜集数据……数据挖掘过程1、陈述问题2、搜集数据3、进行数据预处理4、评估模型（挖掘数据）5、解释模型和得出结论数据挖掘过程１.数据审核２.数据筛选３.数据无量纲化、标准化数据预处理检查数据中的错误找出符合条件的数据无量纲化方法1．阈值法——阈值即临界值，是衡量事物发展变化的一些特殊指标值，如极大值、极小值（此时又称极值法）、满意值、不允许值、标准值（如平均数）等。阈值法的优点：•指标个数及指标的分布无要求；•（转换后的数据——单项评价值）相对数的性质很明显；•数据转换需要的信息量不多。事实上阈值法只利用了极大值或极小值等阈值。•但是这种方法丢失了大量的原始信息，因为评价值只参考了阈值。2.平均数比率法（均值化）、比重法特点：意义直观、明确；对比标准利用了所有的原始数据。3.标准化法（1）标准差标准化标准化处理：将变量值转化为数学期望为0，方差为1的标准化数值。v(i)=(v[i]-mean[v])/sd(v)经标准化处理后的数值围绕着0上下波动，数值大于0的说明高于平均水平，数值小于0的说明低于平均水平。3.标准化法（2）小数缩放小数缩放移动小数点，但仍然保留大多数原始数值。常见的缩放是使值在-1到1的范围内。小数缩放可以表示为等式：V’(i)=v（i）/10kk是保证|v’(i)|的最大值小于1的最小比例。3.标准化法（3）最小—最大标准化v’(i)=(v(i)-min[v(i)])/(max[v(i)]-min[v(i)])其中，特征v的最小值和最大值是通过一个集合自动计算的，或者是通过特定领域的专家估算出来的。标准化对若干数据挖掘方法都很有用。且标准化并不是一次性或一个阶段的事件。如果一种方法需要标准化数据，就要为所选的数据挖掘技术对可用的数据进行转换和准备，还必须对数据挖掘的所有其他阶段、所有的新数据和未来数据进行同样的数据标准化。因此，必须把标准化的参数和方法一起保存。标准化1、陈述问题2、搜集数据3、进行数据预处理4、评估模型（挖掘数据）5、解释模型和得出结论数据挖掘过程分类—发现某个预测学习功能，将一个数据项分类到几个预定义类中的一个。回归—发现某个预测学习功能，将一个数据项映射到一个真实值预测变量上。聚类—一个常见的描述性任务，用于确定有限的一组类别或聚类，来描述数据。总结概括—发现一个本地模型，来描述变量之间或者数据集或其一部分的特征值之间的重要相关性。变化和偏差检测—发现数据集中最重要的变化。数据挖掘的基本任务描述、评价分类、判别预测决策规划、优化。。。。。。问题例：信用风险评价分类问题中——银行贷款员需要分析数据，来弄清哪些贷款申请者是安全的，哪些是有风险的（将贷款申请者分为“安全”和“有风险”两类）分类问题例对10位应聘者做智能检验。3项指标X、Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。其得分如下，选择合适的方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424分类问题根据美国等20个国家和地区的信息基础设施的发展状况进行分类。Call—每千人拥有的电话线数；movecall—每千人户居民拥有的蜂窝移动电话数；fee—高峰时期每三分钟国际电话的成本；computer—每千人拥有的计算机数；mips—每千人计算机功率（每秒百万指令）；net—每千人互联网络户主数。数据摘自《世界竞争力报告——1997》数据见sasuser.cluli01分类问题俗语说，物以类聚、人以群分。但什么是分类的根据呢？比如，要想把中国的县分成若干类，就有很多种分类法：可以按照自然条件来分，比如考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。分类问题如何分类？选择什么样的测度指标来分类？运用什么方法进行分类？聚类分析判别分析、Bayes分类决策树分类支持向量机k-近邻算法分类基于关联规则的分类人工神经网络集成学习分类（Bagging+Boosting）等等分类方法聚类分析聚类分析是研究分类问题的一种多元统计方法。所谓类，就是指相似元素的集合。聚类分析的研究目的把相似的东西归成类，根据相似的程度将研究目标进行分类。§1什么是聚类分析聚类分析聚类分析的研究对象R型分类----对变量进行分类Q型分类----对样本进行分类聚类分析研究的主要内容如何度量事物之间的相似性?怎样构造聚类的具体方法以达到分类的目的?例对10位应聘者做智能检验。3项指标X、Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424我们的问题是如何来选择样本间相似性的测度指标，如何将相似的类连接起来？距离：测度样品之间的亲疏程度。将每一个样品看作p维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的类。相似系数：测度变量之间的亲疏程度§2距离和相似系数kplkjlilijxxd11)||(pljlilijxxd1明氏距离特别地，当k＝1时，即为绝对值距离(1)明氏距离（明考夫斯基距离）ixjxijd令表示样品与的距离npnnppxxxxxxxxx212222111211设原始数据为kplkjlilijxxd11)||(pljlilijxxd12)(明氏距离当k＝2时，即为欧氏距离当k＝∞时，即为切比雪夫距离jlilplijxxd1max123452018104471055325.236.328.911.5171x2x3x3124224)(lllxxd222)5.113.36()510()418(欧氏距离切比雪夫距离lllxxd423124max8.245.113.3624d计算①明氏距离的数值与指标的量纲有关。当各变量的测量值相差悬殊时，常发生“大数吃小数”的现象，为消除量纲的影响，通常先将每个变量进行标准化。②明氏距离的定义没有考虑各个变量之间相关性的影响。年龄收入家庭人口数甲3030001乙4032003222)31()32003000()4030(d(2)标准化的欧氏距离npnnppxxxxxxxxx212222111211设原始数据为ijd22222221111...ppjpipjijisxxsxxsxx222222211111...11jppippjijixxsxxsxxspllljlilsxx12pppnpnnppppppppSxxSxxSxxSxxSxxSxxSxxSxxSxx222211112222221112112221211111由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离，其计算公式为：ijd21221112211,,,pjpijijipjpijijixxxxxxSxxxxxx=211jijixxSxx(3)马氏距离协方差矩阵马氏距离又称为广义欧氏距离。马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立，即观测变量的协方差矩阵是对角矩阵，此时马氏距离就是标准化的欧氏距离。马氏距离不受指标量纲及指标间相关性的影响马氏距离（二）变量间相似系数的算法yyxxxyninikikjijkiknijijjkssxxxxxxxxr2111221变量jx和kx的相关系数：2111221niniikijniikijjkxxxxc（2）夹角余弦（1）相关系数§3各种聚类方法系统聚类法直观，易懂。快速聚类法（动态聚类法）快速，动态。有序聚类法保序(时间顺序或大小顺序)。系统聚类法的基本思想先将n个样品各自看成一类，然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类，计算新类和其它类（各当前类）的距离，再将距离最近的两类合并。这样，每次合并减少一类，直至所有的样品都归成一类为止。系统聚类法的基本步骤：1.计算n个样品两两间的距离，记作D=。2.构造