机器学习学术报告(PPT57页)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

机器学习方法与应用xxx教授南京邮电大学机器学习-相关研究领域机器学习•机器学习方法概述•几种机器学习应用机器学习-缘起机器学习一词是上世纪50年代由美国电脑游戏和人工智能先驱—亚瑟.萨缪尔在IBM工作时提出的。亚瑟.萨缪尔声名鹊起是因为他开发的国际象棋程序。他编写程序让电脑自己和自己下了成千上万局国际象棋。通过观察下在什么位置更可能获胜,下在什么位置更可能输掉,随着局数的增加,下棋程序逐渐学习并最终超越了萨缪尔——这在当时是一个了不起的结果。此处有视频1机器学习-必要性机器学习是从早期人工智能的研究中兴起的,在过去的15-20年间,它被认为是正在发展的计算机的新能力,事实上,有很多程序人工是无法直接编写出来的如:·自动驾驶汽车·通过电脑阅读手写的字母或者数字·编写程序让直升机飞行或倒立飞行然而通过让便编写一个学习型算法,让计算机自己学习,可以很好解决这些问题,如手写识别等。机器学习-定义“对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。”-《MachineLearning》“许多领域都产生了大量的数据,统计学家的工作就是让所有这些数据变得意义:提取重要的模式和趋势,理解“数据在说什么”。我们称之为从数据中学习。”-《统计学习基础》1学习方式分类·有监督学习Supervisedlearning·半监督学习Unsupervisedlearning·无监督学习Semi-supervisedlearning·强化学习Reinforcementlearning1有监督学习输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(LogisticRegression)和反向传递神经网络(BackPropagationNeuralNetwork)1无监督学习无监督式学习的目的是去对原始资料进行分类,以便了解资料内部结构(概率密度等)。其在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后,也可以将之应用到新的案例上。典型的例子就是聚类。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。1半监督学习输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(GraphInference)或者拉普拉斯支持向量机(LaplacianSVM.)1强化学习输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括(Qlearning)以及时间差学习(Temporaldifferencelearning)——学习型算法机器学习可以让我们解决一些人为设计和使用确定性程序很难解决的问题。从科学和哲学的角度来看,机器学习受到关注是因为提高我们对机器学习的认识需要提高我们对智能背后原理-学习算法的理解。机器学习算法是一种能够从数据中学习的算法。然而,我们所谓的学习是什么意思呢?一个简洁的定义是:“对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。下面来分别介绍一下这些名词。1任务T从“任务”的相对正式的定义上说,学习过程本身不能算是任务。学习是我们所谓的获取完成任务的能力。例如,我们的目标是使机器人能够行走,那么行走便是任务。我们可以编程让机器人学会如何行走,或者可以人工编写特定的指令来指导机器人如何行走。通常机器学习任务定义为学习系统应该如何处理样本。样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征的集合。我们通常会将样本表示成一个,其中向量的每一个元素是一个特征。例如,一张图片的特征通常是指这张图片的像素值。1任务T-分类机器学习可以解决很多类型的任务。一些非常常见的机器学习任务列举如下:分类:在这类任务中,计算机程序需要指定某些输入属于k类中的哪一类。为了完成这个任务,学习算法通常会返回一个函数f。当y=f(x)时,模型将向量x所代表的输入分类到数字码y所代表的类别。还有一些其他的分类问题,例如,f输出的是不同类别的概率分布。分类任务中有一个任务是对象识别,其中输入是图片(通常由一组像素亮度值表示),输出是表示图片物体的数字码。例如,WillowGaragePR2机器人能像服务员一样识别不同饮料,并送给点餐的顾客。1任务T-回归回归:在这类任务中,计算机程序需要对给定输入预测数值。为了解决这个务,学习算法需要输出函数f。除了返回结果的形式不一样外,这类问题和分类问题是很像的。这类任务的一个示例是预测投保人的索赔金额(用于设置保险费),或者预测证券未来的价格。这类预测也用在算法交易中。1任务T-机器翻译机器翻译:在机器翻译任务中,输入是一种语言的符号序列,计算机程序必须将其转化成另一种语言的符号序列。这通常适用于自然语言,如将英语译成法语。1任务T-转录转录:这类任务中,机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。例如,光学字符识别要求计算机程序根据文本图片返回文字序列(ASCII码或者Unicode码)。谷歌街景以这种方式使用深度学习处理街道编号(Goodfellowetal.,2014d)。另一个例子是语音识别,计算机程序输入一段音频波形,输出一序列音频记录中所说的字符或单词ID的编码。深度学习是现代语音识别系统的重要组成部分,被各大公司广泛使用,包括微软,IBM和谷歌。1任务T-密度估计密度估计:在密度估计问题中,机器学习算法学习样本采样空间的概率密度函数(样本连续)或者概率质量函数(样本离散)。要做好这样的任务,学习算法需要学习观测到的数据的结构。算法必须知道什么情况下样本聚集出现,什么情况下不太可能出现。密度估计可以让我们显式地捕获该分布。原则上,我们可以在该分布上计算以便解决其他任务。例如,如果我们通过密度估计得到了概率分布p(x),我们可以用该分布解决缺失值填补任务(转化为条件概率)。1性能度量P为了评估机器学习算法的能力,我们必须设计其性能的定量度量。通常性能度量P是特定于系统执行的任务T而言的。对于诸如分类、缺失输入分类和转录任务,我们通常度量模型的准确率(accuracy)。准确率是指该模型输出正确结果的样本比率。我们也可以通过错误率(errorrate)得到相同的信息。错误率是指该模型输出错误结果的样本比率。我们通常把错误率称为0-1损失的期望。在一个特定的样本上,如果结果是对的,那么0-1损失是0;否则是1。1性能度量P通常,我们在训练集(trainset)上学习算法,但我们更加关注机器学习算法在未观测数据上的性能如何,因为这将决定其在实际应用中的性能。因此,我们使用测试集(testset)数据来评估系统性能,将其与训练机器学习系统的训练集数据分开。性能度量的选择或许看上去简单且客观,但是选择一个与系统理想表现对应的性能度量通常是很难的。1性能度量P某些情况下,这是因为很难确定应该度量什么。例如,在执行转录任务时,我们是应该度量系统转录整个序列的准确率,还是应该用一个更细粒度的指标,对序列中正确的部分元素以正面评价?在执行回归任务时,我们应该更多地惩罚频繁犯一些中等错误的系统,还是较少犯错但是犯很大错误的系统?这些设计的选择取决于应用。1经验E根据学习过程中的不同经验,机器学习算法可以大致分类为无监督(unsupervised)算法和监督(supervised)算法。无监督学习算法训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。在深度学习中,我们通常要学习生成数据集的整个概率分布,显式地,比如密度估计,或是隐式地,比如合成或去噪。还有一些其他类型的无监督学习任务,例如聚类,将数据集分成相似样本的集合。1经验E监督学习算法训练含有很多特征的数据集,不过数据集中的样本都有一个标签或目标。例如,Iris数据集注明了每个鸢尾花卉样本属于什么品种。监督学习算法通过研究Iris数据集,学习如何根据测量结果将样本划分为三个不同品种。注:Iris(鸢尾花卉)数据集(Fisher,1936)是统计学家和机器学习研究者使用了很久的数据集。它是150个鸢尾花卉植物不同部分测量结果的集合。每个单独的植物对应一个样本。每个样本的特征是该植物不同部分的测量结果:萼片长度、萼片宽度、花瓣长度和花瓣宽度。这个数据集也记录了每个植物属于什么品种,其中共有三个不同的品种。1牛刀小试-线性回归任务:写一个可以根据房屋大小、位置、成交价等因素来评估一间房屋的价格的小软件。近三个月来,每当你的城市里有人卖了房子,你都记录了下面的细节——卧室数量、房屋大小、地段等等。但最重要的是,你写下了最终的成交价:1牛刀小试-线性回归-这就是我们的训练数据。(为简化模型,只取一个特征)Livingarea(feet2)Price(1000$s)21044001600330240036914162323000540⋮⋮1牛刀小试-线性回归使用这些训练数据,我们要来编写一个能够估算该地区其他房屋价值的程序:我们希望使用这些训练数据来预测其他房屋的价格。这就是监督式学习。你已经知道了每一栋房屋的售价,换句话说,你已经知道了问题的答案,并且可以反向找出解题的逻辑。Livingarea(feet2)Price(1000$s)2000???1牛刀小试-线性回归为了编写你的软件,你将包含每一套房产的训练数据输入到你的机器学习算法当中去。算法会尝试找出需要做哪些数学运算来得出价格。这就好像是你已经知道了数学测试题的答案,但是算式中的运算符号都被擦去了:1牛刀小试-线性回归在监督式学习中,你让计算机为你算出这种关系。而一旦你知道了解决这类特定问题所需要的数学方法后,你就可以解答其它同类问题了!1牛刀小试-线性回归回到房价预测问题上:学习算法各参数随机初始化时,误差通常是比较大的,变现为如图:1牛刀小试-线性回归这时就需要进行性能增强,通过找寻合适的代价函数并通过梯度下降等算法进行优化,预测函数曲线会越来越好:1牛刀小试-线性回归经过计算机训练,最终拟合出一条较合适的预测曲线:1牛刀小试-思考有了简单的回归示例,让我们来思考一下几个问题:1、代价函数是什么,有什么用。2、梯度下降算法原理。3、本例使用一次函数训练,若改为二次函数,告辞函数,结果如何(容量、过拟合、欠拟合问题)。4、本例样本较为充足,若样本不易搜集怎么办,怎样高效利用小样本来训练算法(小样本学习问题)。1思考-代价函数在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如m=47。而我们的假设函数,也就是用来进行预测的函数,是这样的线性函数形式:接下来为型选择合适的参数θ0和θ1,这两个参数称为模型参数。在房价问题这个例子中便是直线的斜率和在y轴上的截距。1思考-代价函数我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差。1思考-代价函数我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数最小。这个函数也叫费用函数。1思考-代价函数也就是意味着得出θ0和θ1这两个参数,使得假设函数表示

1 / 57
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功