五邑大学图像分析与机器视觉机器学习For2012级计算机应用技术研究生主讲李鹤喜ML五邑大学图像分析与机器视觉机器学习概述——简介1、概述机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。ML五邑大学图像分析与机器视觉机器学习概述——机器学习应用2、机器学习的应用机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、汽车自动驾驶、语音和手写识别、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、战略游戏和机器人运用ML五邑大学图像分析与机器视觉机器学习概述——机器学习的定义3、什么是机器学习?机器学习有下面几种定义:(1)“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。(2)“机器学习是对能通过经验自动改进的计算机算法的研究”。(3)“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”(4)英文定义是:AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperienceEML五邑大学图像分析与机器视觉机器学习概述——机器学习的发展历史4、机器学习的发展历史机器学习的研究基本上经历了以下几个发展时期通用的学习系统研究,基于符号表示的概念学习系统研究,基于知识的各种学习系统研究,联接学习和符号学习的深入研究。ML五邑大学图像分析与机器视觉(1)通用学习系统的研究这一时期从50年代中叶开始,几乎和人工智能学科的诞生同步。当时,人工智能的研究着重于符号表示和启发式方法的研究,而机器学习却致力于构造一个没有或者只有很少初始知识的通用系统,这种系统所应用的主要技术有神经元模型、决策论和控制论。鉴于当时计算机技术的限制,研究主要停留在理论探索和构造专用的实验硬件系统。这种系统以神经元模型为基础,只带有随机的或部分随机的初始结构,然后给它一组刺激,一个反馈源和修改自身组织的足够自由度,使系统有可能自适应地趋向最优化组织。这种系统的代表是称为感知器的神经网络。机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉(1)通用学习系统的研究这种系统的代表是称为感知器的神经网络。系统的学习主要靠神经元在传递信号的过程中,所反映的概率上的渐进变化来实现。同时也有人开发了应用符号逻辑来模拟神经元系统的工作,如McCulloch和Pitts用离散决策元件模拟神经元的理论。相关的工作包括进化过程的仿真,即通过随机演变和自然选择来创造智能系统,如Friedberg的进化过程模拟系统。这方面的研究引出了二个副产品:形成了人工智能的一个新分支──模式识别,并创立了学习的决策论方法。这个方法的学习含义是从给定的例子集中,获取一个线性的、多项式的或相关的识别函数。机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉(1)通用学习系统的研究神经元模型的研究未取得实质性进展,并在60年代末走入低谷。作为对照,一种最简单、最原始的学习方法--机械学习,又称为死记式学习,却取得了显著的成功。该方法通过记忆和评价外部环境提供的信息来达到学习的目的。采用该方法的代表性成果是塞缪尔(A.L.Samuel)于50年代末设计的跳棋程序,随着使用次数的增加,该程序会积累性记忆有价值的信息,可以很快达到大师级水平。正是机械学习的成功激励了研究者们继续进行机器学习的探索性研究。机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉(2)基于符号表示的概念学习系统研究从60年代中叶开始,机器学习转入第二时期--基于符号表示的概念学习系统研究。当时,人工智能的研究重点已转到符号系统和基于知识的方法研究。如果说第一时期的研究是用数值和统计方法的话,这一时期的研究则综合了逻辑和图结构的表示。研究的目标是表示高级知识的符号描述及获取概念的结构假设。这时期的工作主要有概念获取和各种模式识别系统的应用。其中,最有影响的开发工作当属温斯顿(Winston)的基于示例归纳的结构化概念学习系统。机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉(2)基于符号表示的概念学习系统研究人们研究了从例子中学习结构化概念的各种不同方法。也有部分研究者构造了面向任务的专用系统,这些系统旨在获取特定问题求解任务中的上下文知识,代表性工作有亨特和哈兰德(Hunt&C.I.Hovland)的CLS和巴查纳(B.G.Buchanan)等的META-DENDRAL,后者可以自动生成规则来解释DENDRAL系统中所用的质谱数据。这个时期机器学习的研究者已意识到应用知识来指导学习的重要性,并且开始将领域知识编入学习系统,如META-DENDRAL和里南(D.B.Lenat,1976)的AM等。机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉(3)基于知识的学习系统研究起始于70年代中期的第三时期注重基于知识的学习系统研究。人们不再局限于构造概念学习系统和获取上下文知识,同时也结合了问题求解中的学习、概念聚类、类比推理及机器发现的工作。一些成熟的方法开始用于辅助构造专家系统,并不断地开发新的学习方法,使机器学习达到一个新的时期。机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉(3)基于知识的学习系统研究这时期的工作特点主要有三个方面:1)基于知识的方法:着重强调应用面向任务的知识和指导学习过程的约束。从早先的无知识学习系统的失败中吸取的教训就是:为获取新的知识,系统必须事先具备大量的初始知识。2)开发各种各样的学习方法,除了早先从例子中学习外,各种有关的学习策略相继出现,如示教学习,观察和发现学习。同时也出现了如类比学习和基于解释的学习等方法。3)结合生成和选择学习任务的能力:应用启发式知识于学习任务的生成和选择,包括提出收集数据的方式、选择要获取的概念与控制系统的注意力等。机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉(4)联接学习和符号学习的深入研究第四时期开始于八十年代后期,联接学习和符号学习的深入研究导致机器学习领域的极大繁荣。首先,神经网络的研究重新迅速崛起,并在声音识别、图象处理等诸多领域得到很大成功。一批在机器学习第一时期中从事研究的学者,经过坚持不懈的努力,发现了用隐含层神经元来计算和学习非线性函数的方法,克服了早期神经元模型的局限性。计算机硬件技术的高速发展也为开发大规模和高性能的人工神经网络扫清了障碍,使得基于人工神经网络的联接学习(ConnectionistLearning)从低谷走出,发展迅猛,并向传统的基于符号的学习提出了挑战。一、机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉(4)联接学习和符号学习的深入研究与此同时,符号学习已经历了三十多年的发展历程,各种方法日臻完善,出现了应用技术蓬勃发展的景象。最突出的成就有分析学习(特别是解释学习)的发展,遗传算法的成功,和加强学习方法的广泛应用。特别是近几年来,随着计算机网络的发展,基于计算机网络的各种自适应、具有学习功能的软件系统的研制和开发都将机器学习的研究推向新的高度,网络环境已成为人工智能和机器学习的重要试验床。一、机器学习概述——机器学习的发展历史ML五邑大学图像分析与机器视觉一、机器学习概述——三个密切相关的概念人工智能、模式识别、机器学习是三个密切相关的概念人工智能——目的是给机器赋予人类的智能,让机器能够像人类那样思考、判断和推理。当然,目前的人工智能没有发展到很高级的程度,这种智能与人类的大脑相比还是处于非常幼稚的阶段,但目前我们可以让计算机掌握一定的知识,更加智能化的帮助我们实现简单或复杂的活动。人工智能更关注的是符号信息与知识的推理,模式识别更关注感知信息处理,而机器学习是介于模式识别和人工智能之间,注重于模式识别中的学习问题。我变聪明了ML五邑大学图像分析与机器视觉我学会认识鸟了!一、机器学习概述——三个密切相关的概念人工智能、模式识别、机器学习是三个密切相关的感念,机器学习——通俗的说就是让机器自己去学习,然后通过学习到的知识来指导进一步的判断。举个最简单的例子,我们训练机器人识别鸟,我们用一堆的鸟的样本数据来让计算机进行运算,样本数据可以是有类标签的,并设计惩罚函数,通过不断的迭代,机器就学会了怎样进行区分鸟和其它动物,使得惩罚最小,然后用学习到的分类规则进行预测等活动。ML五邑大学图像分析与机器视觉一、机器学习概述——三个密切相关的概念人工智能、模式识别、机器学习是三个密切相关的感念模式识别——模式识别偏重于对信号、图像、语音、文字、指纹等非直观数据的自动辨识处理,如语音识别、人脸识别、指纹识别、工件识别等,通过提取出相关的特征,利用这些特征和机器学习算法来进行搜寻我们想要找的目标,注重的是结果。我认得:这是一只鸟ML五邑大学图像分析与机器视觉人工智能、模式识别、机器学习三者之间的关系人工智能模式识别机器学习人工智能提供智能处理架构、概念和推理方法机器学习提供自动学习的理论与方法是实现智能化的技术模式识别是机器学习、人工智能的运用实践一、机器学习概述——三个密切相关的概念ML五邑大学图像分析与机器视觉一、机器学习概述——机器学习分类4、机器学习的种类(1)监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。(2)无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。(3)半监督学习介于监督学习与无监督学习之间。(4)增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。ML五邑大学图像分析与机器视觉一、机器学习概述——机器学习的基本架构5、机器学习的基本架构一个典型的机器学习架构由学习环境、学习算法、知识库和实践执行四部分组成。环境学习部分(学习算法)知识库(知识表示)训练数据知识累积待辨识数据执行部分(识别)输出结果反馈评估ML五邑大学图像分析与机器视觉一、机器学习概述——机器学习的典型算法机器学习的典型算法1、k-NN最近邻居法*2、贝叶斯学习法*3、决策树学习法*4、神经网络学习法*5、支持向量机学习法*6、关联规则学习法7、集成学习法*8、聚类分析学习法*9、强化学习法10、事例推理学习法ML五邑大学图像分析与机器视觉二、k-NN最近邻分类算法K最近邻(k-NearestNeighbor,K-NN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。基本思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K-NN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。K-NN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于K-NN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,K-NN方法较其他方法更为适合。