机器学习与深度学习简介

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

机器学习简介与应用1卷积神经网络自编码器机器学习与深度学习2机器学习与深度学习PART013什么是机器学习?4已明确分类结果的样本数据集(训练集)待分类数据集(测试集)训练(求参数w0,…,wn的取值)模型(参数w0,…,wn最终取值)分类/判别结果输出问题提出模型(参数w0,…,wn取值待定)机器学习:对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对数据进行预测和分类。其基础主要是归纳和统计。𝑦=f(x)=w1x+w0机器学习常用算法5决策树:将输入空间分成不同的区域,每个区域有独立参数的算法。决策树算法充分利用了树形模型,根节点到一个叶子节点是一条分类的路径规则,每个叶子节点象征一个判断类别。先将样本分成不同的子集,再进行分割递推,直至每个子集得到同类型的样本,从根节点开始测试,到子树再到叶子节点,即可得出预测类别。此方法的特点是结构简单、处理数据效率较高。缺点:决策树往往会产生过拟合问题机器学习常用算法6随机森林:以决策树为基础的一种更高级的算法。工作原理是生成多个分类器/模型,各自独立地学习和作出预测。随机森林中每个决策树都有一个自己的结果,通过统计每个决策树的结果,选择投票数最多的结果作为其最终结果。所以理论上,随机森林的表现一般要优于单一的决策树。优点:•抗过拟合能力:通过平均决策树,降低过拟合的风险性。•只有在半数以上的基分类器出现差错时才会做出错误的预测,非常稳定。机器学习常用算法7支持向量机:建立一个最优决策超平面,使得该平面两侧距平面最近的两类样本之间的聚类最大化,从而对分类问题提供良好的泛化能力。红色两条线是两类数据的边界,但容错性较低,如果取绿色线作为分类线,那么对于此类数据,应该是最好的分类线。机器学习常用算法8Boost&Bagging:构建多个弱学习算法,形成多个弱分类器,得到多种比较粗糙的分类规则,然后将这些弱分类规则组织成强分类规则。Boost:采用改变训练数据的概率分布,针对不同的训练数据分布调用弱学习算法学习一组弱分类器。在多次迭代的过程中,当前次迭代所用的训练数据的概率分布会依据上一次迭代的结果而调整。也就是说训练数据的各样本是有权重的,这个权重本身也会随着迭代而调整。不同分布的训练数据进入不同学习法则后,得到的各基本分类器通常经过线性组合,形成强分类器。例如,像Adaboost和xgboost,最后的强分类器都是弱分类器的加性组合。机器学习常用算法9Bagging:训练几个分类器(弱学习器),然后让这几个分类器的输出当做分类投票,选择票数最多的那个输出作为最后的输出。对每个分类器,输入数据都是从原始训练数据中可重复的采样,每个分类器的输入服从相同的分布,且各输入之间相互独立。而Boost中,各训练数据的分布不独立,每个分类器的输入样本之间也不独立。BoostBagging样本选择训练集不变有放回方式采样样本权重错误率越大,权重越大权重相同预测函数分类误差小的分类器会有更大的权重所有预测函数的权重相等并行计算各个预测函数只能顺序生成各个预测函数可以并行计算从简单线性分类器到深度学习10x1x2x3x4w=[w1,w2,w3,w4]y输入输出y=𝑓(𝑤1𝑥1+𝑤2𝑥2+𝑤3𝑥3+𝑤4𝑥4)𝑓∙:激活函数x1x2x3x4w=[w1,w2,w3,w4]y输入中间层输出h1h2h3uwℎ1=𝑢11𝑥1+𝑢12𝑥2+𝑢13𝑥3+𝑢14𝑥4ℎ2=𝑢21𝑥1+𝑢22𝑥2+𝑢23𝑥3+𝑢24𝑥4ℎ3=𝑢31𝑥1+𝑢32𝑥2+𝑢33𝑥3+𝑢34𝑥4𝑦=𝑓(𝑤1ℎ1+𝑤2ℎ2+𝑤3ℎ3)深度学习特点:增加中间层、低层特征转化为高层特征深度学习网络往往包含多个中间层问题:根据繁华程度(x1)、交通便利度(x2)、与市中心距离(x3)、楼层(x4)预测房价高低深度学习11深度学习(Deeplearning)是一种实现机器学习的技术,是机器学习重要的分支。其源于人工神经网络的研究。深度学习模型是一种包含多隐藏层的神经网络,通过组合低层特征形成更加抽象的高层特征。机器学习深度学习受人脑神经元工作机理的启发:深度学习动机12•良好的特征表达,对最终算法的准确性起了非常关键的作用•识别系统主要的计算和测试工作耗时主要集中在特征提取部分•特征的样式一般都是人工设计的,靠人工提取特征数据预处理特征提取特征选择预测与识别传统模式识别方法深度学习动机13自动选取特征•获得好的特征是识别成功的关键•目前存在大量人工设计的特征,不同研究对象特征不同,特征具有多样性,如SIFT(尺度不变特征变换),HOG(方向梯度直方图)等特征•手工选取特征费时费力,需要启发式专业知识,很大程度上靠经验和运气•是否能自动地学习特征?物体部件:•对于人工而言特征提取是十分困难的•不一定特征越多越好,需要多少个特征由学习确定深度学习动机14层次网络结构:高层特征或图像,往往是由一些基本结构(浅层特征)组成。高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图。2006年,加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton在《科学》上发表论文提出深度学习主要观点:1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2)深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wisepre-training)来有效克服,逐层初始化可通过无监督学习实现的。浅层学习局限:有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限。深度学习15本质:通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升分类或预测的准确性。“深度模型”是手段,“特征学习”是目的。与浅层学习的区别:明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。优势:可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示。深度学习VS神经网络16神经网络:深度学习:深度学习VS神经网络17相同点:二者均采用分层结构,系统包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个logistic回归模型。不同点:神经网络:采用BP算法调整参数,即采用迭代算法来训练整个网络。随机设定初值,计算当前网络的输出,然后根据当前输出和样本真实标签之间的差去改变前面各层的参数,直到收敛;深度学习:采用逐层训练机制。采用该机制的原因在于如果采用BP机制,对于一个deepnetwork(7层以上),残差传播到最前面的层将变得很小,出现所谓的gradientdiffusion(梯度扩散)。深度学习训练过程18第一步:采用自下而上的无监督学习•逐层构建单层神经元。•每次仅调整一层,逐层调整。这个过程可以看作是一个featurelearning的过程,是与传统神经网络区别最大的部分。第二步:自顶向下的监督学习•在第一步学习获得各层参数进的基础上,在最顶的编码层添加一个分类器(例如Logistic回归、SVM等),而后通过带标签数据的监督学习,利用梯度下降法去微调整个网络参数。深度学习过拟合与正则化19过拟合产生原因•观察值与真实值存在偏差•数据太少,无法描述问题的真实分布•特征维度过多、模型假设太复杂减少过拟合•正则化:L1、L2正则,模型中引入惩罚项•dropout::丢掉一些神经元•Earlystopping:模型训练差不多的时候停下•数据集扩增深度学习常用方法20基于多层神经元的自编码神经网络,包括自编码(Autoencoder)以及近年来受到广泛关注的稀疏编码两类(SparseCoding)基于卷积运算的神经网络系统,即卷积神经网络(CNN)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)自编码器PART221什么是自编码器?22自编码器:通过网络训练学习得到数据的低维度表示,通过让重构值与输入值相等来获取数据中的重要信息xy输入层隐藏层重构层hStep1学习输入数据的隐含特征,即编码:𝒙𝒉Step2用隐含特征重构输入数据,即解码:𝒉𝒚重构层本身没有实际意义,使用自编码器主要用于特征提取,起到特征提取器的作用。隐藏层维度低于输入层,起到降维作用自编码器原理23编码:将𝒙映射为𝒉,例如采用单层感知机:𝒉=𝜎𝑾𝒙+𝒃𝜎为激活函数,如sigmoid函数或ReLu函数等;𝑾为权重矩阵,𝒃为偏置向量。解码:将𝒉映射为与𝒙形状相同的重构𝒚:𝒚=𝜎𝑾′𝒉+𝒃′损失函数:自编码器需要通过训练减少数据重建的误差(如均方误差):𝐿𝒙,𝒚=𝒙−𝒚2特征提取24自编码器的重要意义是特征提取,模型训练完成后,将解码器删除,仅使用编码器得到重构的特征。得到的特征可应用于有监督的模型中,如分类模型。输入特征输出特征(输入)softmax分类器(label1|)px(label2|)px(label|)pKxAE+softmax分类器堆栈自编码器25堆栈自编码器:本质上就是增加中间特征层数输入层隐藏层1隐藏层2隐藏层3输出层编码重构28*28=784units300units150units300units784units稀疏自编码器26稀疏自编码器:在自编码器的基础上增加约束条件后得到。隐藏层大部分神经元被抑制,少部分被激活,具有更优的学习数据特征的能力。第𝑗个神经元的平均活跃度:𝜌𝑗=1𝑁𝜎𝑗(𝒙𝑖)𝑁𝑖=1𝑁为样本个数,𝜎𝑗∙表示第𝑗个神经元的激活函数。对于所有神经元,希望𝜌𝑗与稀疏度𝜌相等,𝜌为接近于0的较小数。稀疏惩罚项:𝐽𝜌=𝐾𝐿(𝜌||𝜌𝑗)𝑠𝑗=1=𝜌log𝜌𝜌𝑗+(1−𝜌)log1−𝜌1−𝜌𝑗𝑠𝑗=1确保只有少数隐藏层中的神经元处于激活状态稀疏自编码器27不加稀疏约束的隐含层激活状态,可看到很混乱,不含有明显的分工加入稀疏约束项后明显改善,可看到隐含层较好的提取到各个笔画的特征输入图片加噪声:•不加约束时,算法对抹去大面积空白处的盐粒噪声很积极,对有数字区域不敏感•稀疏约束让隐含层更有效的捕获有价值信息,而非仅有白噪声区域,能恢复更多些的细节降噪自编码器28降噪自编码器:训练过程中输入的数据有一部分是“损坏”的,核心思想是一个能够从中恢复出原始信号的神经网络表达未必是最好的,能够对“损坏”的原始数据编码、解码,然后还能恢复真正的原始数据,这样的特征才是好的。对于输入的数据x按照𝑞𝐷分布加入进行加噪“损坏”,从图中可见,这个加噪过程是按照一定的概率将输入层的某些节点清0(dropout实现),然后将𝒙作为自编码器的输入进行训练。除了对输入层数据的处理不同,其余部分DAE与AE完全类似。降噪自编码器29降噪自编码器的特征图原自编码器的特征图降噪自编码器确实在训练后学习到了有效的特征提取,例如手写体数字的”转角”,这类特征更有代表性。卷积自编码器30卷积自编码器:当输入是图像时,使用卷积神经网络是更好的。卷积自编码器和普通自编码器的区别在于其encoder和decoder都是卷积神经网络,相应的,encoder使用的是卷积操作和池化操作,而decoder中使用的反卷积操作和反池化操作。卷积神经网络PART331什么是卷积?32输入图像卷积核特征图−1−1−1−18−1−1−1−1边缘信息提取每个像素的取值用该像素原来数值的八倍减去邻近点像素值的和来替代•平滑部分(如草地)计算结果趋近于0,在输出特征图中表现为黑色•边缘线由于像素值差值较大,在输出特征图中表

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功