机器学习算法及其应用

paul_yun
0 ℃
2021-03-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

-1-机器学习方法及应用1、机器学习学习是生物中枢神经系统的高级整合技能之一,是人类获取知识的重要途径和人类智能的重要标志,按照人工智能大师H·Simon的观点[1]:学习就是系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行同样或相类似的任务时,会比原来做得更好或效率更高。机器学习则是计算机获取知识的重要途径和人工智能的重要标志,是一门研究怎样用计算机来模拟或实现人类学习活动的学科,是研究如何使机器通过识别和利用现有知识来获取新知识和新技能。一般认为,机器学习是一个有特定目的的知识获取过程,其内部表现为从未知到已知这样一个知识增长过程,其外部表现为系统的某些性能和适应性的改善,使得系统能完成原来不能完成或更好地完成原来可以完成的任务。它既注重知识本身的增加,也注重获取知识的技能的提高。1.1机器学习基本模型以H·Simon的学习定义作为出发点,建立如图1的基本模型。在机器学习的过程中,首要的因素是外部环境向系统提供信息的质量。外部环境是以某种形式表达的外界信息集合,它代表外界信息来源;学习是将外界信息加工为知识的过程,先从环境获取外部信息,然后对这些信息加工形成知识,并把这些知识放入知识库中;知识库中存放指导执行部分动作的一般原则,由于环境向学习系统提供的信息形形色色,信息质量的优劣直接影响到学习部分容易实现还是杂乱无章。而知识库则是影响学习系统设计的第二个因素,由于知识库可能不同,表达方式各有特点,在选择表示方式上要兼顾表达能力强、易于推理、易于完善及扩展知识表示等几个方面的要求。执行环节是利用知识库中的知识完成某种任务的过程,并把完成任务过程中所获得的一些信息反馈给学习环节,以指导进一步的学习。1.2机器学习的发展和研究目标机器学习是人工智能研究较为年轻的分支,它的发展过程大体上分为四个时期[2]。第一阶段是20世纪50年代中叶到60年代中叶,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习。其研究目标是各类自组织系统和自适应系统,其主要研究方法是不断修改系统的控制参数和改进系统的执行能力,不涉及与具体任务有关的知识。本阶段的代表性工作是:塞缪尔(Samuel)的下棋程序。但这种学习的结果远不能满足人们对机器学习系统的期望。第二阶段是在60年代中叶到70年代中叶,被称为机器学习的冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。本阶段的代表性工作有温斯顿(Winston)的结构学习系统和海斯罗思(Hayes-Roth)等的基本逻辑的归纳学习系统。-2-第三阶段从20世纪70年代中叶到80年代中叶,称为复兴时期。在此期间,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进机器学习的发展。1980年,在美国的卡内基—梅隆(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。当前机器学习围绕三个主要研究方向进行:1.面向任务:在预定的一些任务中,分析和开发学习系统,以便改善完成任务的水平,这是专家系统研究中提出的研究问题;2.认识模拟:主要研究人类学习过程及其计算机的行为模拟,这是从心理学角度研究的问题;3.理论分析研究:从理论上探讨各种可能学习方法的空间和独立于应用领域之外的各种算法。这三个研究方向各有自己的研究目标,每一个方向的进展都会促进另一个方向的研究。这三个方面的研究都将促进各方面问题和学习基本概念的交叉结合,推动了整个机器学习的研究。机器学习的研究目标大致有三个方向,一个方向是基础性训究,发展各种适合机器特点的学习理沦,探讨所有可能的学习方法,比较人类学习与机器学习的异同与联系;一个方向是以模拟人类的学习过程出发,试图建立学习的认识生理学模型,这个方向与认知科学的发展密切相关;一个方向是应用研究,建立各种实用的学习系统或知识获取辅助工具,在人工智能科学的应用领域建立自动获取知识系统,积累经验,完善知识库与控制知识,进而能使机器的智能水平像人类一样。2.机器学习方法2.1机械学习机械学习就是记忆,即把新的知识存储起来,供需要时检索调用,而无须计算和推理。任何学习系统都必须记住它们获取的知识。在机械学习系统中,知识的获取以较为稳定和直接的方式进行,不需要系统进行过多的加工。而对于其他学习系统,需要对各种建议和训练例子等信息进行加工处理后,才能存储起来。当机械学习系统的执行部分解决好问题之后,系统就记住该问题及其解。可以把学习系统的执行部分抽象地看成某个函数,该函数在得到自变量输入值(X1,X2,…,Xn)之后,计算并输出函数值(Y1,Y2,…,Yp)。机械学习在存储器中简单地记忆存储对((X1,X2,…,Xn),(Y1,Y2,…,Yp))。当需要f(X1,X2,…,Xn)时,执行部分就从存储器中把(Y1,Y2,…,Yp)简单地检索出来而不是重新计算它。这种简单的学习模式如下:对于机械学习,需要注意:采用适当的存储方式,使检索速度尽可能地快;保证所保存的信息适应于外界环境变化的需要;不能降低系统的效率。2.2归纳学习归纳推理是应用归纳方法,从足够多的具体事例中归纳出一般性知识,提取事物的一般规律,是从个别到一般的推理。归纳学习是应用归纳推理进行学习的方法,根据归纳学习有无教师指导,可分为示例学习和观察与发现学习。前者属于有师学习,后者属于无师学习。归纳学习系统的模型如图2所示。实验规划过程通过对实例空间的搜索完成实例选择,并将这些选中的活跃实例提交给解释过程。解释过程对实例加以适当转换,把活跃实例变换-3-为规则空间中的特定概念,以引导规则空间的搜索。2.2.1示例学习示例学习又称实例学习,是通过环境中若干与某概念有关的例子,经归纳得出一般性概念的学习方法。在这种学习方法中,外部环境提供的是一组例子,每一个例子表达了仅适用于该例子的知识。示例学习就是要从这些特殊知识中归纳出适用于更大范围的一般性知识,以覆盖所有的正例并排除所有反例。例如,如果用一批动物作为示例,并且告诉学习系统哪一个动物是马,哪一个动物不是。当示例足够多时,学习系统就能概括出关于马的概念模型,使自己能够识别马,并且能将马与其他动物区别开来。2.2.2观察发现学习观察发现学习又称描述性概括,其目标是确定一个定律或理论的一般性描述,刻画观察集,指定某类对象的性质。观察发现学习可分为观察学习与机器发现两种。前者用于对事例进行聚类,形成概念描述;后者用于发现规律,产生定律或规则。概念聚类的基本思想是把事例按照一定的方式和准则分组,如划分为不同的类或不同的层次等,使不同的组代表不同的概念,并对每一个组进行特征概括,得到一个概念的语义符号描述。机器发现是指从观察事例或经验数据中归纳出规律或规则的学习方法,也是最困难且最富创造性的一种学习。机器发现又可分为经验发现与知识发现两种,前者是指从经验数据中发现规律和定律,后者是指从已观察的事例中发现新的知识。2.3类比学习类比能清晰、简洁地描述对象间的相似性。类比学习就是通过类比,即通过对相似事物加以比较所进行的一种学习。例如,当教师要向学生讲授一个较难理解的新概念时,总是用一些学生已经掌握且与新概念有许多相似之处的例子作为比喻,使学生通过类比加深对新概念的理解。像这样通过对相似事物的比较所进行的学习就是类比学习。类比学习主要包括4个过程:(1)输入一组已知条件和一组未完全确定的条件。(2)对输入的两组条件,根据其描述,按某种相似性的定义寻找两者可类比的对应关系。(3)根据相似变换的方法,将已有问题的概念、特性、方法、关系等映射到新问题上,以获得待求解新问题所需的新知识。(4)对类推得到的新问题的知识进行校验。验证正确的知识存入知识库中,而暂时还无法验证的知识只能作为参考性知识,置于数据库中。类比学习的关键是相似性的定义与相似变换的方法。相似定义所依据的对象随着类比学习的目的发生变化,如果学习目的是获得新事物的某种属性,那么定义相似时应依据新、旧事物的其他属性间的相似对应关系。如果学习目的是获得求解新问题的方法,那么应依据新问题的各个状态间的关系与老问题的各个状态间的关系来进行类比。相似变换一般要根据新、老事物间以何种方式对问题进行相似类比而决定-4-2.4解释学习基于解释的学习简称解释学习。解释学习根据任务所在领域知识和正在学习的概念知识,对当前实例进行分析和求解,得出一个表征求解过程的因果解释树,以获取新的知识。在获取新知识的过程中,通过对属性、表征现象和内在关系等进行解释而学习到新的知识。1986年Mitchell等人提出了基于解释的概括方法,该算法建立了基于解释的概括过程,并运用知识的逻辑表示和演绎推理进行问题求解,如图3所示。在解释学习中,为了对某一目标概念进行学习,从而得到相应的知识,必须为学习系统提供完善的领域知识以及能够说明目标概念的一个训练实例。在系统进行学习时,首先运用领域知识找出训练实例为什么是目标概念之实例的证明,然后根据操作准则对证明进行推广,从而得到关于目标概念的一般性描述,即可供以后使用的形式化表示的一般性知识。2.5基于神经网络的学习神经网络的性质主要取决于两个因素:网络的拓扑结构;网络的权值、工作规则。二者结合起来就可以构成一个网络的主要特征。神经网络的学习问题就是网络的权值调整问题。神经网络的连接权值的确定一般有两种方式:一种是通过设计计算确定即所谓死记式学习;另一种是网络按一定的规则通过学习得到的。大多数神经网络使用后一种方法确定其网络权值。比较出名的网络模型和学习算法有反向传播算法、Hopfield网络等。2.5.1基于反向传播网络的学习误差反向传播学习由两次通过网络不同层的传播组成:一次前向传播和一次反向传播。在前向传播中,一个活动模式作用于网络感知结点,它的影响通过网络一层接一层地传播,最后产生一个输出作为网络的实际响应。在前向传播中,网络的突触权值全被固定了。在反向传播中,突触权值全部根据突触修正规则来调整。特别是网络的目标响应减去实际响应而产生误差信号,这个误差信号反向传播通过网络,与突触连接方向相反,因此叫误差反向传播。突触权值被调整使得网络的实际响应从统计意义上接近目标响应。误差反向传播算法通常称为反向传播算法,由算法执行的学习过程称为反向传播学习。反向传播算法的发展是神经网络发展史上的一个里程碑,因为反向传播算法为训练多层感知器提供了一个有效的计算方法。2.5.2基于Hopfield网络模型的学习前向神经网络,从学习的观点看,是强有力的学习系统,结构简单,易于编程。从系统的观点看,属于静态的非线性映射,通过简单非线性处理单元的复合映射可获得复杂的非线性处理能力,但它们因缺乏反馈,所以并不是一个强有力的动力学系统。Hopfield模型属于反馈型神经网络,从计算的角度讲,具有很强的计算能力。系统着重关心的是系统的稳定性问题。稳定性是这类具有联想记忆功能神经网络模型的核心,学习记忆的过程就是系统向稳定状态-5-发展的过程。Hopfield网络可用于解决联想记忆和约束优化问题的求解。2.6知识发现数据库中的知识发现是从大量数据中辨识出有效的、新颖的、潜在有用的、可被理解的模式的高级处理过程。知识发现过程如图4所示:数据选择是根据用户需求从数据库中提取相关数据。数据预处理是对数据进行再加工,检查数据的完整性及一致性,对其中的噪音数据进行处理,对丢失的数据利用统计方法进行填补,形成发掘数据库。数据变换即从发掘数据库里选择数据。变换的方法主要是利用聚类分析和判别分析。数据挖掘是根据用户要求,确定知识发现的目标是发现何种类型的知识,运用选定的知识发现算法,从数据库中提取用户所需要的知识。知识评价主要用于对所获得的规则进行价值评定,以决定所得到的规则是否存入基础知识库。上述知识发现过程可以进一步归纳为3个步骤,即数据挖掘预处理、数据挖掘、数据挖掘后处理。知识发现已在银行业、保险业、零售业、医疗保健、工程和制造业、科学研究、卫星观察和娱乐业等行业和部门得到成功应用,为人们的科学决策提供了很大帮