2020/2/5福州大学计算机科学与技术系1第六章机器学习概述几种机器学习2020/2/5福州大学计算机科学与技术系2第六章机器学习概述几种机器学习2020/2/5福州大学计算机科学与技术系3机器学习—概述参考书本书展示了机器学习中的核心算法和理论,并阐明了算法的过行过程。书中主要涵盖了目前机器学习中各种最实用的理论和算法,包括概念学习、决策树、神经网络、贝叶斯学习、基于实例的学习、遗传算法、规则学习、基于解释的学习和增强学习等。对每一个主题,作者不仅进行了十分详尽和直观的解释,还给出了实用的算法流程。本书被卡内基梅隆等许多大学作为机器学习课程的教材。2020/2/5福州大学计算机科学与技术系4机器学习—概述什么是机器学习?Simon(1983):学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。Minsky(1985):学习是在我们头脑中(心里内部)进行有用的变化。学习是一种具有多侧面的现象。学习的过程有:获取新的陈述性知识、通过教育或实践发展机械技能和认知能力、将新知识组织成为通用化和有效的表达形式、借助观察和实验发现新的事实和新的理论。2020/2/5福州大学计算机科学与技术系5机器学习—概述基本形式:知识获取和技能求精知识获取:学习的本质就是获取新的知识。包括物理系统和行为的描述和建模,构造客观现实的表示。——知识获取通过实践逐渐改造机制和认知技能。例:骑自行车。这些技能包括意识的或机制的协调。这种改进又是通过反复实践和从失败的行为中纠正偏差来进行的。——技能求精2020/2/5福州大学计算机科学与技术系6机器学习—概述基本形式知识获取的本质可能是一个自觉的过程,其结果是产生新的符号知识结构和智力模型。而技能求精则是下意识地借助于反复地实践来实现的。本章只涉及学习的知识获取问题。2020/2/5福州大学计算机科学与技术系7机器学习—概述为什么要研究机器学习?人工智能主要是为了研究人的智能,模仿其机理将其应用于工程的科学。在这个过程中必然会问道:“人类怎样做才能获取这种特殊技能(或知识)?”。.......….2020/2/5福州大学计算机科学与技术系8机器学习—概述为什么要研究机器学习?.......….当前人工智能研究的主要障碍和发展方向之一就是机器学习。包括学习的计算理论和构造学习系统。现在的人工智能系统还完全没有或仅有很有限的学习能力。系统中的知识由人工编程送入系统,知识中的错误也不能自动改正。也就是说,现有的大多数人工智能是演绎的、没有归纳推理,因而不能自动获取和生成知识。.......….2020/2/5福州大学计算机科学与技术系9机器学习—概述为什么要研究机器学习?………..未来的计算机将有自动获取知识的能力,它们直接由书本学习,通过与人谈话学习,通过观察学习。它们通过实践自我完善,克服人的存储少、效率低、注意力分散、难以传送所获取得知识等局限性。一台计算机获取的知识很容易复制给任何其它机器。2020/2/5福州大学计算机科学与技术系10机器学习—概述实现的困难:预测难:学习后知识库发生了什么变化,系统功能的变化的预测。归纳推理:现有的归纳推理只保证假,不保证真。演绎推理保真。而且,归纳的结论是无限多的,其中相当多是假的,给生成的知识带来不可靠性。机器目前很难观察什么重要、什么有意义。2020/2/5福州大学计算机科学与技术系11机器学习—概述机器学习模型学习是建立理论、形成假设和进行归纳推理的过程。整个过程包括:信息的存储、知识的处理两部分环境学习环节知识库执行环节对环境所提供的信息进行处理,以便改善知识库中的显式知识。2020/2/5福州大学计算机科学与技术系12机器学习—概述发展历史神经系统模型和决策理论的研究50年代开始。其特点是对开始与无初始结构和面向作业知识的通用学习系统感兴趣。包括构造多种具有随机或部分随机的初始结构的基于神经模型的机器。这些系统一般称为神经网络或自组织系统。由于当时计算机技术状态,多停留在理论和硬件上。这些元件类似于神经元,他们实现简单的逻辑功能。………2020/2/5福州大学计算机科学与技术系13机器学习—概述发展历史神经系统模型和决策理论的研究………1965年左右,神经网络经验模式导致了模式识别这一新学科以及机器学习的决策理论方法。这种方法中学习就是从给定的一组经过选择的例子中获得判断函数,有线性的、多项式的、或相关的形式。当时,Samuel(1059-1963)的跳棋程序是最著名的成功的学习系统之一。达到了跳棋大师的水平。2020/2/5福州大学计算机科学与技术系14机器学习—概述符号概念获取的研究60年代中期提出的基于符号表示的概念学习系统研究。这类学习过程通过分析一些概念的正例和反例构造出这些概念的符号表示。表示的形式一般是逻辑表达式、决策树、产生式规则或语义网络。代表有Winston的ARCH。2020/2/5福州大学计算机科学与技术系15机器学习—概述基于知识的学习系统的研究70年代中期注重基于知识的学习系统研究。人们不再局限于构造概念学习系统和获取上下文知识,同时也结合了问题求解中的学习、概念聚类、类比推理及机器发现的工作。一些成熟的方法开始用于辅助构造专家系统,并不断地开发新的学习方法,使机器学习达到一个新的时期。这时期的工作特点主要有三个方面:2020/2/5福州大学计算机科学与技术系16机器学习—概述基于知识的学习系统的研究基于知识的方法:着重强调应用面向任务的知识和指导学习过程的约束。从早先的无知识学习系统的失败中吸取的教训就是:为获取新的知识,系统必须事先具备大量的初始知识。开发各种各样的学习方法,除了早先从例子中学习外,各种有关的学习策略相继出现,如示教学习,观察和发现学习。同时也出现了如类比学习和基于解释的学习等方法。结合生成和选择学习任务的能力:应用启发式知识于学习任务的生成和选择,包括提出收集数据的方式、选择要获取的概念与控制系统的注意力等。2020/2/5福州大学计算机科学与技术系17机器学习—概述联接学习和符号学习的深入研究第四时期开始于八十年代后期,联接学习和符号学习的深入研究导致机器学习领域的极大繁荣。首先,神经网络的研究重新迅速崛起,并在声音识别、图象处理等诸多领域得到很大成功。从事研究的学者,发现了用隐含层神经元来计算和学习非线性函数的方法,克服了早期神经元模型的局限性。计算机硬件技术的高速发展也为开发大规模和高性能的人工神经网络扫清了障碍,使得基于人工神经网络的联接学习从低谷走出,发展迅猛,并向传统的基于符号的学习提出了挑战。2020/2/5福州大学计算机科学与技术系18机器学习—概述联接学习和符号学习的深入研究同时,符号学习已经历了三十多年的发展历程,各种方法日臻完善,出现了应用技术蓬勃发展的景象。最突出的成就有分析学习(特别是解释学习)的发展,遗传算法的成功和加强学习方法的广泛应用。特别是近几年来,随着计算机网络的发展,基于计算机网络的各种自适应、具有学习功能的软件系统的研制和开发都将机器学习的研究推向新的高度,网络环境已成为人工智能和机器学习的重要试验床。2020/2/5福州大学计算机科学与技术系19机器学习—概述机器学习进入新阶段的重要表现:(近十年)机器学习已成为新的边缘科学并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。2020/2/5福州大学计算机科学与技术系20机器学习—概述机器学习进入新阶段的重要表现:(近十年)结合各种学习方法,取长补短的多种形式的集成学习系统的研究正在兴起。特别是连接学习,符号学习的耦合可以更好地解决连续性信号处理中知识与技能的获取与求精问题而受到重视。2020/2/5福州大学计算机科学与技术系21机器学习—概述机器学习进入新阶段的重要表现:(近十年)机器学习与人工智能各种基础问题的统一性观点正在形成。例如:学习与问题求解结合进行,知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。类比学习与问题求解结合的基于案例学习已成为经验学习的重要方向。2020/2/5福州大学计算机科学与技术系22机器学习—概述机器学习进入新阶段的重要表现:(近十年)各种学习方法的应用范围不断扩大,一部分已形成商品。归纳学习的知识获取工具已在诊断分类性专家系统中广泛应用。连接学习在声图文识别中占优势。分析学习用于设计综合性专家系统。遗传算法与强化学习在工程控制中有较好的应用前景。与符号系统耦合的神经网络连接学习将在企业的智能管理与智能机器人运动规划中发挥作用。2020/2/5福州大学计算机科学与技术系23机器学习—概述机器学习进入新阶段的重要表现:(近十年)与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研究会外,还有计算机学习理论会议及遗传算法会议。2020/2/5福州大学计算机科学与技术系24机器学习—概述分类(由低到高)通过归纳总结学习(自学习)通过书本资料学习(独立研究)通过实际事例学习(启发式学习)通过提问学习(注入式学习)通过机械记忆学习(死记硬背式)高低2020/2/5福州大学计算机科学与技术系25机器学习—概述分类:(按学习策略分类)机械式学习和直接输入新知识(记忆学习)学习者不需要进行任何推理或知识转换,将知识直接装进机器中。根据示教学习(传授学习、指点学习)从老师或其它有结构的事物获取知识。要求学习者将输入语言的知识转换成它本身的内部表示形式。并把新的信息和它原有的知识有机地结合为一体。2020/2/5福州大学计算机科学与技术系26机器学习—概述通过类推学习(演绎学习)学习者找出现有知识中所要产生的新概念或技能十分类似的部分。将它们转换或扩大成适合新情况的形式,从而取得新的事实或技能。从例子中学习(归纳学习)给学习者提供某一概念的一组正例和反例,学习者归纳出一个总的概念描述,是它适合于所有的正例且排除所有的反例。(目前研究较多的一种方法)2020/2/5福州大学计算机科学与技术系27机器学习—概述类比学习演绎学习与归纳学习的组合。匹配不同论域的描述、确定公共的结构。以此作为类比映射的基础。寻找公共子结构是归纳推理,而实现类比映射是演绎推理。基于解释的学习学生根据教师提供的目标概念、该概念的一个例子、领域理论及可操作准则,首先构造一个解释来说明为什么该例子满足目标概念,然后将解释推广为目标概念的一个满足可操作准则的充分条件。2020/2/5福州大学计算机科学与技术系28机器学习—概述分类:(按综合分类)机器学习近几年来发展很快,无论是符号学习还是联接学习都派生出了许多分支和新的方法,研究领域不断扩大,使得不少机器学习方法很难用加以归类。综合分类方式则在对机器学习方法进行分类时,综合考虑各种学习方法出现的历史渊源、知识表示、推理策略、结果评估的相似性、研究人员交流的相对集中性以及应用领域等诸因素。综合分类方式将机器学习方法区分为以下六类:2020/2/5福州大学计算机科学与技术系29机器学习—概述按综合分类经验性归纳学习(empiricalinductivelearning)。经验性归纳学习采用一些数据密集的经验方法(例如,版本空间法、ID3法,定律发现方法)对例子进行归纳学习。其例子和学习结果一般都采用属性、谓词、关系等符号表示。它相当于基于学习策略分类中的归纳学习,但扣除联接学习、遗传算法、加强学习的部分。2020/2/5福州大学计算机科学与技术系30机器学习—概述按综合分类经验性归纳学习--决策树构造法ID3。如果学习的任务是对一个大的例子集作分类概念的归纳定义,而这些例子又都是用一些无结构的属性值对来表示,则可以采用示例学习方法的一个变种──决策树学习,其代表性的算法是昆兰(J.R.Quinlan,1986)提出的ID3。2020/2/5福州大学计算机科学与技术系31机器学习—概述按综合分类决策树构造法--ID3。ID3的输入是描述各种已知类别实例的列表。例子由预先定义的属性值对来表示。归纳推理产生的结果不是以往讨论的那种合取表达式,而是一棵决策树(也称判别树,并可转而表示为决策