第六章机器学习概述实例学习基于解释的学习决策树学习神经网络学习第六章机器学习概述实例学习基于解释的学习决策树学习神经网络学习机器学习—概述参考书:《MachineLearning》,TomM.Mitchell,1997,(机械出版社)什么是机器学习?Simon(1983):学习就是系统中的变化,这种变化使系统比以前更有效地去做同样的工作。Minsky(1985):学习是在我们头脑中(心里内部)进行有用的变化。学习是一种具有多侧面的现象。学习的过程有:获取新的陈述性知识、通过教育或实践发展机械技能和认知能力、将新知识组织成为通用化和有效的表达形式、借助观察和实验发现新的事实和新的理论。机器学习—概述基本形式知识获取和技能求精。学习的本质就是获取新的知识。包括物理系统和行为的描述和建模,构造客观现实的表示。——知识获取通过实践逐渐改造机制和认知技能。例:骑自行车。这些技能包括意识的或机制的协调。这种改进又是通过反复实践和从失败的行为中纠正偏差来进行的。——技能求精机器学习—概述知识获取的本质可能是一个自觉的过程,其结果是产生新的符号知识结构和智力模型。而技能求精则是下意识地借助于反复地实践来实现的。本章只涉及学习的知识获取问题。机器学习—概述为什么要研究机器学习?人工智能主要是为了研究人的智能,模仿其机理将其应用于工程的科学。在这个过程中必然会问道:“人类怎样做才能获取这种特殊技能(或知识)?”。机器学习—概述为什么要研究机器学习?当前人工智能研究的主要障碍和发展方向之一就是机器学习。包括学习的计算理论和构造学习系统。现在的人工智能系统还完全没有或仅有很有限的学习能力。系统中的知识由人工编程送入系统,知识中的错误也不能自动改正。也就是说,现有的大多数人工智能是演绎的、没有归纳推理,因而不能自动获取和生成知识。机器学习—概述为什么要研究机器学习?未来的计算机将有自动获取知识的能力,它们直接由书本学习,通过与人谈话学习,通过观察学习。它们通过实践自我完善,克服人的存储少、效率低、注意力分散、难以传送所获取的知识等局限性。一台计算机获取的知识很容易复制给任何其它机器。机器学习—概述实现的困难:预测难:学习后知识库发生了什么变化,系统功能的变化的预测。归纳推理:现有的归纳推理只保证假,不保证真。演绎推理保真。而且,归纳的结论是无限多的,其中相当多是假的,给生成的知识带来不可靠性。机器目前很难观察什么重要、什么有意义。机器学习—概述发展历史神经系统模型和决策理论50年代开始。其特点是对开始与无初始结构和面向作业知识的通用学习系统感兴趣。包括构造多种具有随机或部分随机的初始结构的基于神经模型的机器。这些系统一般称为神经网络或自组织系统。由于当时计算机技术状态,多停留在理论和硬件上。这些元件类似于神经元,他们实现简单的逻辑功能。机器学习—概述发展历史神经系统模型和决策理论1965年左右,神经网络经验模式导致了模式识别这一新学科以及机器学习的决策理论方法。这种方法中学习就是从给定的一组经过选择的例子中获得判断函数,有线性的、多项式的、或相关的形式。当时,Samuel(1959-1963)的跳棋程序是最著名的成功的学习系统之一。达到了跳棋大师的水平。机器学习—概述符号概念获取1975年左右提出的。这类学习过程通过分析一些概念的正例和反例构造出这些概念的符号表示。表示的形式一般是逻辑表达式、决策树、产生式规则或语义网络。代表有Winston的ARCH。机器学习—概述知识加强和论域专用学习此方法是70年代中期开始,沿着符号主义路线进行的。在原有基础上逐步加强、重于专业的专用性。强调使用面向任务的知识和它对学习过程的引导作用。系统包括预先确定的概念、知识结构、论域约束、启发式规则和论域有关的变换。系统在开始并不具有所有的属性或概念,在学习过程中系统应得到一些新的属性或概念。没有绝对的学习方法。许多系统体现出上述途径的组合。机器学习—概述机器学习进入新阶段的重要表现:(近十年)(1)机器学习已成为新的边缘科学并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动化和计算机科学形成机器学习理论基础。机器学习—概述机器学习进入新阶段的重要表现:(近十年)(2)结合各种学习方法,取长补短的多种形式的集成学习系统的研究正在兴起。特别是连接学习、符号学习的耦合可以更好地解决连续性信号处理中知识与技能的获取与求精问题而受到重视。机器学习—概述机器学习进入新阶段的重要表现:(近十年)(3)机器学习与人工智能各种基础问题的统一性观点正在形成。例如:学习与问题求解结合进行,知识表达便于学习的观点产生了通用智能系统的组块学习。类比学习与问题求解结合的基于案例学习已成为经验学习的重要方向。机器学习—概述机器学习进入新阶段的重要表现:(近十年)(4)各种学习方法的应用范围不断扩大,一部分已形成商品。归纳学习的知识获取工具已在诊断分类性专家系统中广泛应用。连接学习在声图文识别中占优势。分析学习用于设计综合性专家系统。遗传算法与强化学习在工程控制中有较好的应用前景。与符号系统耦合的连接学习的神经网络将在企业的智能管理与智能机器人运动规划中发挥作用。机器学习—概述机器学习进入新阶段的重要表现:(近十年)(5)与机器学习有关的学术活动空前活跃。国际上除每年一次的机器学习研究会外,还有计算机学习理论会议及遗传算法会议。机器学习—概述机器学习模型学习是建立理论、形成假设和进行归纳推理的过程。整个过程包括:信息的存储、知识的处理两部分。环境知识库执行环节学习环节机器学习—概述分类:按学习策略机械式学习,直接输入新知识(记忆学习)学习者不需要进行任何推理或知识转换,将知识直接装进机器中。根据示教学习(传授学习、指点学习)从老师或其它有结构的事物获取知识。要求学习者将输入语言的知识转换成它本身的内部表示形式。并把新的信息和它原有的知识有机地结合为一体。机器学习—概述通过类推学习(演绎学习)学习者找出现有知识中所要产生的新概念或技能十分类似的部分。将它们转换或扩大成适合新情况的形式,从而取得新的事实或技能。从例子中学习(归纳学习)给学习者提供某一概念的一组正例和反例,学习者归纳出一个总的概念描述,使它适合于所有的正例且排除所有的反例。(目前研究较多的一种方法)机器学习—概述类比学习演绎学习与归纳学习的组合。匹配不同论域的描述、确定公共的结构。以此作为类比映射的基础。寻找公共子结构是归纳推理,而实现类比映射是演绎推理。机器学习—概述研究目的希望得到通用的算法研究了解学习知识的模型、认知模型解决实际问题的知识库与系统,达到工程目标研究特点不可预测性第六章机器学习概述实例学习基于解释的学习决策树学习神经网络学习第六章机器学习概述实例学习基于解释的学习决策树学习神经网络学习实例学习概述50年代兴起的实例学习是归纳学习的一种。目前实例学习在某些系统中的应用已成为机器学习走向实践的先导。环境提供给系统一些特殊的实例,这些实例事先由施教者划分为正例和反例。实例学习系统由此进行归纳推理得到一般规则。环境提供给学习环节的正例和反例是低水平的信息,这是特殊情况下执行环节的行为。学习环节归纳出的规则是高水平的信息,可以在一般情况下用这些规则指导执行环节的工作。实例学习实例学习的两个空间模型:例子空间规则空间选择例子解释例子实例学习-两个空间模型例:取实例空间为所有的人。正例集合为张衡、华罗庚、李四光、吴有训、张光斗,反例为马克思、罗斯福、斯大林、丘吉尔。学到的概念可以是中国人,或科学家,或中国科学家,等。而名人、已故名人、曾在20世纪生活过的人,等是不可能学到的。学到的概念可能是不唯一的,除非正例集和反例集加起来正好等于整个实例空间。实例学习-两个空间模型描述例子空间的描述语言可以描述所有例子;规则空间的描述语言可以描述所有规则。例如:计算机如何掌握扑克牌“同花”5张这个概念。正例:{(2,c),(3,c),(5,c),(J,c),(A,c)},其中c表示草花club反例:{(8,c),(3,s),(9,p),(Q,h),(3,d)}例子空间:描述一手牌的全部谓词表达式的集合。实例学习-两个空间模型谓词表达式可以使用下列符号表示:谓词:SUIT(花色),RANK(点数)常量:A,2,3,…,10.J,Q,K,clubs(草花),diamonds(方块),hearts(红桃),spades(黑桃)表示牌的变量:c1、c2、c3、c4、c5某些必要的自由变量:x、y、z合取连接词∧,存在量词同花的概念可以表示为下列规则:(c1,c2,c3,c4,c5)∧SUIT(c1,x)∧SUIT(c2,x)∧SUIT(c3,x)∧SUIT(c4,x)∧SUIT(c5,x)实例学习-两个空间模型例子空间示教例子的质量:不能有错,同时提供正例和反例,逐步分批有选择地送入。选择的条件:最有力地划分规则空间;证实肯定假设规则的集合;否定假设规则的集合。实例学习-两个空间模型解释例子解释例子的目的是从例子中提出用于搜索空间的信息。把示教例子变换成易于进行符号归纳的形式。(有时很难)例如:Winston的积木世界中的“拱”的概念。BCA实例学习-两个空间模型规则空间(最根本、真正学习的部分)定义:一套符号来规定表示规则的算符、术语,所有的描述都在其中。归纳方法:从特殊到一般的推理常量化为变量。例P221,从几个正例中找到共性的部分改成变量。去掉条件。同上例,去掉牌点数这个条件。增加选择(析取)。例人脸牌。从RANK(c1,J),RANK(c2,K)推出,还有RANK(c3,Q)。曲线拟合。几组值,解方程或用最小二乘法拟合成一条曲线或曲面。实例学习-两个空间模型(规则空间)不管是去掉还是增加,都是扩大范围。把已有的知识总结归纳推广。但是要小心,越快越强的方法越容易出错。原因是归纳推理方法是保假不保真。(真?,假假)实际上没有很严格的具体方法。因此,用归纳方法的过程就是搜索过程。找到包含在少数例子中的正确信息。归纳出错就要回溯。要经常检验,用新例子去否定归纳出的错误规则。即解释例子和选择例子的反复,反复于例子空间和规则空间之间。实例学习-两个空间模型(规则空间)对规则空间的要求表示应适应于归纳。如:有谓词才可以增减;有状态空间才能拟合。不同的归纳方法要求不同的规则表示方法。如果规则空间描述的语言的表达能力较弱,可以使用的归纳方法就比较少,规则空间的搜索范围就比较小,搜索就比较容易。但解决的问题就较少。因此,设计是在规则空间表达能力与规则空间搜索难度之间进行权衡。表示和例子的一致。如相差很大,解释例子和选择例子的过程就很复杂。引入新术语(规则空间)。当表示语言不能描述学习过程中产生的新状态时,要产生新的术语。实例学习-两个空间模型(规则空间)搜索规则空间的方法最终的目的是为了搜索,先建立一个假设空间,在其中进行搜索。方法:怎样改进假设规则集,以便求得要求的规则。变形空间法Version-space:数据驱动改进假设法Hypothesis-refinement:数据驱动产生与测试GenerateandTest:模型驱动方案示例法SchemaInstantiation:模型驱动选择例子选择合适的例子,以能更好的搜索。实例学习的分类按搜索方法分类:变形空间法改进假设法产生与测试法方案示例法实例学习-实例学习的分类按论域分类:数字表示:多用于电子工程、系统理论和模式分析知识:多项式、矩阵;系统:自适应系统;任务:模式分类、自适应控制、滤波等。符号表示:AI领域主要研究对象知识:符号的特征向量、一阶谓词、产生式规则、框架、语义网络。实例学习-实例学习的分类实例学习-实例学习的分类按任务复杂程度分类:学习单个概念:最基本的学习多个概念:归纳出多个相互独立的概念学习