题目:机器学习的研究现状作者:摘要:学习是一切智能系统最根本的特征。机器学习是人工智能最具智能特征、最前沿的研究领域。机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。本文对机器学习的发展过程、学习分类及应用领域进行了说明。针对机器学习研究现状进行了综述,同时借助机器学习的作用及影响对未来做出展望。学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷纭。人们曾对学习给出各种定义。比如西蒙Simon(1983)定义学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。Minsky(1985)则认为学习是在我们头脑中(心里内部)进行有用的变化。学习能力是智能行为的一个非常重要的特征,而机器学习在人工智能的研究中具有十分重要的地位。不过至今,对于“机器学习”也还没有统一的定义,而且也很难给出一个公认的和准确的定义。Langley(1996)曾对机器学习做过描述,认为机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。照目前来讲,稍为严格的定义是:机器学习是一门研究机器(计算机)获取新知识和新技能,并识别现有知识的一门学科。通过公式大致可以描述为:机器学习=神经科学(含认知科学)+数学+计算。机器学习在人工智能的研究中具有十分重要的地位。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。从20世纪50年代人们就开始了对机器学习的研究,从最初的基于神经元模型以及函数逼近论的方法研究,到以符号演算为基础的规则学习和决策树学习的产生,以及之后的认知心理学中归纳、解释、类比等概念的引入,至最新的计算学习理论和统计学习的兴起,机器学习一直都在相关学科的实践应用中起着主导作用。现在已取得了不少成就,并分化出许多研究方向,主要有符号学习、连接学习和统计学习等。机器学习发展过程大体可分为以下四个部分。50年代中叶到60年代中叶,机器学习研究的目标是各类自组织系统和自适应系统;指导本阶段研究的理论基础是早在40年代就开始研究的神经网络模型。60年代中叶至70年代中叶所在阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。70年代中叶至80年代中叶,在这个时期,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和各种学习方法。本阶段已开始把学习系统与各种应用结合起来。机器学习最新阶段始于1986年,一方面,由于神经网络研究的重新兴起,另一方面,对实验研究和应用研究得到前所未有的重视。我国的机器学习研究开始进入稳步发展和逐渐繁荣的新时期。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统!正如所讲的一样,既然称得上人工智能的机器必须具备如同人类般的学习能力。而机器学习的策略和方法究竟是什么呢?简单地说,机器学习可分为信息、发现和知识三个要素,它们分别是机器学习的对象、方法和目标。基于这三个要素,我们可以给出如下的机器学习分类。首先是基于学习策略的分类。从简单到复杂的次序分为机械学习、示教学习、演绎学习、类比学习、基于解释的学习、归纳学习六个部分。机械式学习又称为死记式学习,其实质是用存储空间换取处理时间。示教学习方法和人类社会的学校教学方式相似,学生从环境获取信息,把知识转换成内部可使用的表示形式,并将新的知识和原有知识有机地结合为一体。而演绎学习大致而言是推理的学习过程。类比学习最是容易让人明白,著名的卢瑟福类比就是通过将原子结构(目标域)同太阳系(源域)作类比,揭示了原子结构的奥秘。基于解释的学习就是在学习过程中通过运用域内有关知识对例子分析构造规则并进行推广得到一般性的描述。归纳学习是最基本也较成熟的学习方法。原理是通过一些实例或反例让学生通过归纳推理出该概念的一般描述。基于学习方式的分类可分为有导师学习、无导师学习以及强化学习三个类别。通俗来讲就是监督学习和非监督学习以及增强学习三个方面的内容。基于数据形式分类包含结构化学习和非结构化学习两个方面。前者典型的例子有神经网络学习、统计学习、决策树学习和规则学习。而后者着重与类别学习\案例学习和图像挖掘等方面。基于学习目标分类又可以划分为概念学习、规则学习、函数学习、类别学习和贝叶斯网络学习。机器学习研究的进展对社会经济的影响是非常巨大的。美国航空航天局JPL实验室的科学家在《Science》(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,该领域在今后的若干年内将取得稳定而快速的发展。概括而言机器学习能使计算机的应用领域大为扩展,并使个人和组织的竟争力提高到新的水平,甚至形成人类全新的生活方式。另外,对机器学习的信息处理算法的研究将导致对人脑学习能力更好的理解。目前,机器学习领域的研究工作主要围绕以下三个方面进行。首先是面向任务的研究,其内容是研究和分析改进一组预定任务的执行性能的学习系统;其次是认知模型,研究人类学习过程并进行计算机模拟;还有就是理论分析,从理论上探索各种可能的学习方法和独立于应用领域的算法。在理论方面,关于观察例的数目,所考虑的假设的数目和学习到的假设的预计误差之间的基本关系的刻画已经取得成果。我们已经获得人类和动物学习的初步模型,开始了解它们与计算机学习算法之间的关系。在应用方面,近十年来的进展尤为迅速。比较典型的有天气预报搜索引擎、证券市场分析、语音和手写识别、图像识别、遥感信息处理等。下面是一些突出的应用实例。计算机弈棋:大多数成功的计算机弈棋程序均基于机器学习算法。例如,TD-GAMMON通过与自己对弈100多万次学习下backgammon棋的策略。该系统目前已达到人类世界冠军的水平。类似的技术也可用于许多其他的涉及非常大型的搜索空间的实际问题。语音识别:所有最成功的语音识别系统都以某种形式使用了机器学习技术。例如,SPHINX系统学习针对具体讲话人的策略从接受到的语音信号中识别单音和单词。神经网络学习方法和学习隐藏的Markov模型的方法可有效地应用于对各别讲话人,词汇表,麦克风的特性,背景噪音等的自动适应。类似的技术也可用于许多其他的信号解释问题。自动车驾驶:机器学习方法已用于训练计算机控制的车辆在各种类型的道路上的正确行驶。例如,ALVINN系统使用学习到的策略在高速公路上与别的车辆一起以每小时70英里的速度自动行驶了90英里。类似的技术也可用于许多其他的基于传感器的控制问题。就机器学习研究的现状而言,目前还不能使计算机具有类似人那样的学习能力。与此同时,机器学习面临着巨大的挑战问题,诸如泛化能力、速度、可理解性以及数据利用能力相关方面的发展情况。但是,对某些类型的学习任务已经发明了有效的算法,对学习的理论研究也已经开始,人们已经开发出许多计算机程序,它们显示了有效的学习能力,有商业价值的应用系统也已经开始出现。机器学习是继专家系统之后人工智能应用的又一重要研究领域。现有的计算机系统和人工智能系统至多也只有非常有限的学习能力,因而不能满足科技和生产提出的新要求。对机器学习的讨论和机器学习研究的进展,必将促使人工智能和整个科学技术的进一步发展。总之,随着我们对计算机研究的进一步加深,机器学习将不可避免地在计算机科学技术中起到越来越中心的作用。参考文献:廉师友,人工智能技术导论(第三版),西安电子科技大学出版社[美]TomM.Mithell,机器学习,曾华军、张银奎等译,机械工业出版社://=3428