文献综述_梁军胜

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

北京理工大学软件工程专业本科生毕业论文开题报告文献综述学号1120122206工程领域软件工程姓名梁军胜指导教师李志强企业指导教师二O一6年1月12日北京理工大学本科生毕业论文开题报告文献综述11.课题国内外现状随着信息技术的不断发展,合理、恰当、有效地运用信息技术,建设数字化的校园成为了学校建设的新的方向。如今数字化校园已经成为信息化教育的代名词。随着无纸化办公的深入,学校积累了大量的信息,包括各个学生的成绩,这些数据越来越多地积累在数据库中,如何从这些海量的数据中提取并发现有用的信息,为学校的教学提供参考依据,成为当前急需解决的问题。早在1995年就有人提出了数据挖掘这一新型的数据分析技术,经过近20年的研究,数据挖掘技术得到了迅速的发展,并已经在各个行业得到了广泛的应用,为社会带来了很大的经济效益。1.1国外研究和发展现状与数据挖掘(DataMining)极为相似的术语——从数据库中发现知识(KDD)一词,首次出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上。1993年以后,美国计算机协会(ACM)每年都举办了专门的会议研究讨论数据挖掘技术,会议名称为ACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,简称KDD会议,研究重点逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有30多家软件公司展示了数据挖掘软件产品,不少软件已经在北美和欧洲国家得到了广泛的应用,并且得到了明显的效益。其中一些典型的应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析;利用数据挖掘技术识别顾客的购买行为模式,对客户进行分析;对银行或者保险公司经常发生的诈骗行为进行预测。北京理工大学本科生毕业论文开题报告文献综述21.2国内研究和发展现状与国外相比,国内对数据挖掘的研究起步稍晚,没有形成整体力量。1993年,国家自然科学基金首次支持数据挖掘领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及其应用研究,这些单位包括清华大学,中科院计算技术研究所,空军第三研究所,海军装备论证中心等。例如,复旦大学教授领导开发了数据挖掘工具集AMNER;北京大学智能科学系的唐世渭和杨冬青教授领导开发了基于空间数据挖掘的客户分析系统模型CASDM。此外周立柱教授领导的数据挖掘研究小组,四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研究小组,中国科学技术大学蔡庆生教授领导的针对关联规则的研究小组等,都取得了许多重要的研究成果。2.研究主要成果2.1基于人工神经网络的预测方法目前关于人工神经网络,还没有一个明确、统一的定义,大家普遍公认的有,美国神经网络学家HechtNielsen提出的神经网络定义,“它是由其状态动态响应对外部的输入信息,从而处理信息的一种计算系统,这种系统由很多个简单的可以处理信息的神经元相互关系连接形成。”还有一种对神经网络的理解是它是由很多个简单的可以处理信息的神经元相互关系连接形成的系统,通过网络的结构,连接强度,各个神经元的工作方式的改变而得到不同的功能。不管怎么定义,有一点是肯定的,那就是人工神经网络是对人脑神经网络的结构和功能的抽象、简化和模拟而构成的一种信息处理系统。神经元是构成神经网络的最基本单元。每一个神经元接收来自系统中其他一组神经元的输入信号,来自每个神经元的输入信号Xn对应一个权值Wn,所有输入神经元的信号和权值的加权(XW)决定了该神经元的激活状态。神经元的网络输入net通过激活函数获得输出信号,常见的典型的激活函数包括阶跃函数、S型函数、线性函数、非线性函数等。单独的神经元功能单一,没有智能,而如果将大量的神经元按一定的结构组合到一起,形成庞大的神经网络系统,就能够实现信息的处理与存储等复杂的功能。根据神经元之间的不同的网络拓扑结构和连接方式,可以将神经网络分为层次型和互连型神经网北京理工大学本科生毕业论文开题报告文献综述3络。按照学习方式的不同可以将神经网络分为有导师学习、无导师学习以及等级学习三种类型。有导师学习所需要的信息量大,对于每一个输入,网络都要产生一个实际输出,在学习期间需要给网络同时提供输入和期望输出。BP网络就是有导师学习的例子;无导师学习仅需要输入信息便能进行学习,并且给出相应的输出,其方式取决于特定的网络。典型的如自组织映射网络和自适应共振理论网络等;等级学习需要较少的信息,不需要给出期望的输出,而是给出实际输出的逼近精度的等级,这取决于特定的学习率。给出的逼近等级,可以是对每一个训练模式对提出的要求,也可以是对若干训练模式对提出的要求。Reinforcement-learning是这种学习的例子。目前人工网络的重要模型有BP神经网络模型。一般来说,BP算法通过一些学习规则来调整神经元之间的连接权值,而在此过程中,学习规则和网络拓扑结构不发生改变。在目前所有的神经网络算法中,BP算法因为误差反向传播网络良好的逼近能力以及较为成熟的训练方法得到了广泛的应用。1985年有Rumelhart等人建立了BP网络,由一个输入层、若干隐含层以及一个输出层所组成,同一层的神经元之间没有连接,而且限制每层的神经元只能向高一层的神经元传输信号。BP网络算法是一种多层前反馈神经网络的学习算法。算法的核心是一边向后传播误差,一边修正误差,不断调节网络权值,从而逼近或实现所希望的输入、输出映射关系,它采用的是有导师的学习规则。BP网络算法的一次完整学习过程包括两次的传播计算:(1)首先是工作信号的正向传播。从输入层接收到的输入信号经过隐含层,然后传递到输出层,由输出层给出运算结果。在这种情况下,网络中的权值保持不变,并且每一层神经元只将信号传递给下一层的神经元,不会影响其它层的神经元。最后如果输出层输出的值不符合要求,则会进入误差信号反向传播过程。(2)误差信号反向传播。所谓误差信号就是网络的实际输出与期望输出之间的差值。误差信号通过输入层逐层向前反向传播,没传播一层,该层网络的权值就会根据误差反馈进行一次自我调整,直到反传到输入层。这样经过多次误差反传多次权值修正,从而使得BP网络的实际输出逐渐逼近期望输出,最终获得较好的效果。虽然BP网络算法有着广泛的应用,但是也存在一些固有的缺点。北京理工大学本科生毕业论文开题报告文献综述41.收敛速度慢BP网络算法的收敛速度和很多因素有关,主要有:(1)算法参数的选择;(2)BP算法自身存在的局限性,比如BP算法的误差曲面存在平坦区域,而在这些区域中,误差梯度的变化比较小,即使将权值调整得很大,误差仍然下降缓慢。2.隐含层数和隐节点数等难以确定没有具体的理论来指导决定隐含层的数目和每层神经元的数目,目前只能根据经验或者具体实验来获得近似理论。3.目标函数存在局部极小点由于BP网络采用的激活函数是非线性的函数,它考虑的是全局误差,有可能会存在多个极小值的情况,如果网络收敛时陷入到其中一个局部最小值就不能自拔。这时表现在网络学习上就是学习到一定次数后,网络的全局误差就不再下降,而此时网络的精度还不能达到期望。其他应用较广的典型的神经网络模型还有Hopfield网络、ART网络、Kohonen网络等。2.2回归分析预测法连续型数值的预测可以使用统计技术中的回归分析进行建模。回归分析的目的是通过具有已知值的变量来预测其他变量的值,找到一个联系输入变量和输出变量的最优模型。更确切的说,回归分析就是试图从实际数据中寻找某种规律的方法,确立和分析某种响应Y(因变量)和重要因素X(对相应有影响的自变量(x1,x3,…,xn))之间的函数关系。即如果X是非随机变量或者随机变量,Y是随机变量,那么对X的每一确定值Xi都有Y的一个确定分布与之对应。回归值代表一个条件期望值,将预测属性视为自变量,预测目标视为因变量,则可使用回归技术进行预测。从两个变量间的相关程度来看,可以将回归分为:完全相关、不相关、统计相关(不完全相关)。其中统计相关是科研中最常遇到的情况。此处讨论的回归分析也是针对这种统计相关情况来进行的。统计回归又可以分为线性回归和非线性回归。在最简单的情况下,回归采用的是线性回归技术。但是大多数现实世界中的问题是不能用简单的线性回归技术预测的,比如北京理工大学本科生毕业论文开题报告文献综述5股票价格,商品的销售量,学生的学习成绩等,很难找到简单有效的方法来预测,只能采用非线性回归。因为要描述这些事件的变化所需要的变量过于庞大,并且这些变量本身往往是非线性的。非线性回归可以分为两种情况,即已知曲线(方程)类型和未知曲线(方程)类型。这两种情况需要用不同的方法来解决。一般来说,如果已知曲线类型,回归效果会比较有保证;同时在多数情况下我们对所研究的对象都有一定的了解,可以根据理论或者经验给出可能的曲线类型,因此常用的还是已知曲线类型的回归。确定曲线类型的方法主要有:1.从专业知识判断。这些公式或者来源于某种理论推导,或者是一种经验公式。2.如果没有足够的专业知识可以判断变量间的关系是哪种类型,则可以用散点图的方法来判断。确定曲线类型之后,回归的任务就变成确定曲线公式中的参数,此时常用的回归分析方法有:线性化方法、曲线拟合方法。建立回归模型是一个相当复杂的过程,概况起来主要有如下四个方面:1.数据的收集和预分析;2.回归方程的选取;3.模型的精细分析;4.模型的确认。回归方程的优化是整个建模过程最重要的一个环节。目前主流的回归分析优化算法有:最小二乘法、基于BP网络算法的回归分析法、基于遗传算法的回归分析法和基于前馈神经网络模型模糊感知器回归分析法。其中基于BP神经网络的回归分析可以在不得出回归函数的具体数学表达式的情况下给出具有确定算法与结构参数的神经网络。从某种意义上来说,它能够更有效地表述实际问题。特别是当有些实际问题并不需要明确的数学表达式或者根本无法找到明确的数学表达式时,基于BP神经网络的回归分析显得更加优越。在股票价格,商品的销售量,学生的学习成绩等的预测上,使用人工神经网络进行非线性回归效果更好。基于神经网络的回归分析与传统的最小二乘法回归分析相比,区别在于:1.最小二乘法的回归分析的目标在于寻找函数表达的具体形式,而基于神经网络北京理工大学本科生毕业论文开题报告文献综述6的回归分析目的在于寻找一种神经网络模型,用实验样本来训练这个网络,训练完成后,这个网络就成为该问题的“专家”,这个“专家”可以完成映射。2.与最小二乘法回归分析的目标函数相比,神经网络的结构表达更加复杂,网络参数由网络的层数、各层单元数、连接权值、阀值等进行描述,其间关系取决于网络模型,这个网络是通过对样本的“学习”而形成的,它能够解决映射的表达问题,因此用取代是一种合理的选择。3.在回归方式上,最小二乘法回归分析根据多组样本数据,寻求与某种函数表达式的逼近,根据剩余标准差、相关系数的判定来确定函数中的参数值。基于神经网络的回归分析,是将这些样本数据,交给网络学习,根据全局误差极小来判断学习完成,从而确定网络结构参数。其原理是一样的,但是基于神经网络的回归用更复杂的表达方式,但同时,它也能够解决更复杂的问题。3.发展趋势数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。就目前来看,数据挖掘的几个研究热点主要包括网站的数据挖掘、生物信息或基因的数据挖掘及文本的数据挖掘。网站的数据挖掘就是从网站的各类数据中得到有价值的信息,与一般的数据挖掘差别不大,但是其数据格式很大一部分来自于点击率,与传统的数据库格式有区别。生物信息或基因的数据挖掘对人类生存发展有着非常重要的意义,基因的组合千变万化,能否找出病人的基因和正常人的基因的不同之处,进而对其加以改变,这就需要数据挖

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功